小米发布全新开源视觉语言模型 MiMo-VL-7B，超越 GPT-4o

摘要：5 月 30 日，小米正式发布并开源了新一代视觉语言模型（VLM）MiMo-VL-7B 系列，包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本。该系列模型以 70 亿参数为基础，聚焦于多模态推理、图像与文本理解、尤其在数学推理和复杂

编译/前方智能

5 月 30 日，小米正式发布并开源了新一代视觉语言模型（VLM）MiMo-VL-7B 系列，包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本。该系列模型以 70 亿参数为基础，聚焦于多模态推理、图像与文本理解、尤其在数学推理和复杂逻辑问题上表现突出。

图源：Hugging Face

据技术报告介绍，MiMo-VL-7B-SFT 通过四阶段预训练，结合高质量、多样化的推理数据，显著提升了模型的推理能力。而 MiMo-VL-7B-RL 则在此基础上引入了混合 On-policy 强化学习（MORL），进一步优化了模型在感知、视觉定位、逻辑推理和人类偏好对齐等多方面的表现。在权威基准测试如 AIME 等公开测评中，MiMo-VL-7B 以 7B 参数规模超越了 OpenAI GPT-4o 及阿里 Qwen2.5-VL-72B 等更大参数量的模型，成为同级别开源模型中的佼佼者。

MiMo-VL-7B 系列模型已在 Hugging Face 和 ModelScope 平台同步开源，便于开发者部署和本地推理。小米方面表示，未来将持续优化 MiMo 体系，并积极推动其在智能终端、机器人和自动驾驶等场景的落地应用。

免责声明：

1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。

2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

来源：前方智能AI

标签：模型小米开源视觉语言

本文地址：http://news.43b.com.cn/a/406240.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!