小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B

摘要：5月30 日，小米官方公众号“Xiaomi MiMo”宣布，其多模态大模型 Xiaomi MiMo-VL 正式开源。MiMo-VL-7B 的 RL 前后两个模型以及支持 50 +评任务的框架开源至 GitHub。

【太平洋科技快讯】5月30 日，小米官方公众号“Xiaomi MiMo”宣布，其多模态大模型 Xiaomi MiMo-VL 正式开源。MiMo-VL-7B 的 RL 前后两个模型以及支持 50 +评任务的框架开源至 GitHub。

MiMo-VL 在多个任务上展现出卓越的性能，尤其在多模态推理方面表现突出。MiMo-VL-7B 仅使用 7B 参数规模，就在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先于参数规模是其 10 倍的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，甚至超越了闭源模型 GPT-4o。在评估真实用户体验的内部大模型竞技场中，MiMo-VL-7B 也超越了 GPT-4o，成为开源模型中的佼佼者。

值得一提的是，MiMo-VL-7B 不仅在复杂图片推理和问答等任务上表现出色，还能够完成长达 10 多步的 GUI 操作，展示了其在 Agent 时代的巨大潜力。例如，它可以协助用户将心仪的商品，如小米 SU7，添加到心愿单中。

据官方介绍，小米团队收集、清洗、合成了高质量的预训练多模态数据，涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型，总计 2.4T tokens。通过分阶段调整不同类型数据的比例，强化了长程多模态推理的能力。此外，小米还采用了混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL)，该算法结合了文本推理、多模态感知推理以及 RLHF 等反馈信号，全方位提升了模型的推理、感知性能和用户体验。

来源：太平洋电脑网一点号

标签：模型小米模态开源 gui

本文地址：http://news.43b.com.cn/a/409249.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!