摘要:5月30 日,小米官方公众号“Xiaomi MiMo”宣布,其多模态大模型 Xiaomi MiMo-VL 正式开源。MiMo-VL-7B 的 RL 前后两个模型以及支持 50 +评任务的框架开源至 GitHub。
【太平洋科技快讯】5月30 日,小米官方公众号“Xiaomi MiMo”宣布,其多模态大模型 Xiaomi MiMo-VL 正式开源。MiMo-VL-7B 的 RL 前后两个模型以及支持 50 +评任务的框架开源至 GitHub。
MiMo-VL 在多个任务上展现出卓越的性能,尤其在多模态推理方面表现突出。MiMo-VL-7B 仅使用 7B 参数规模,就在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先于参数规模是其 10 倍的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,甚至超越了闭源模型 GPT-4o。在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 也超越了 GPT-4o,成为开源模型中的佼佼者。
值得一提的是,MiMo-VL-7B 不仅在复杂图片推理和问答等任务上表现出色,还能够完成长达 10 多步的 GUI 操作,展示了其在 Agent 时代的巨大潜力。例如,它可以协助用户将心仪的商品,如小米 SU7,添加到心愿单中。
据官方介绍,小米团队收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。此外,小米还采用了混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL),该算法结合了文本推理、多模态感知 推理以及 RLHF 等反馈信号,全方位提升了模型的推理、感知性能和用户体验。
来源:太平洋电脑网一点号