摘要:5 月 30 日,小米正式发布并开源了新一代视觉语言模型(VLM)MiMo-VL-7B 系列,包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本。该系列模型以 70 亿参数为基础,聚焦于多模态推理、图像与文本理解、尤其在数学推理和复杂
编译/前方智能
5 月 30 日,小米正式发布并开源了新一代视觉语言模型(VLM)MiMo-VL-7B 系列,包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本。该系列模型以 70 亿参数为基础,聚焦于多模态推理、图像与文本理解、尤其在数学推理和复杂逻辑问题上表现突出。
据技术报告介绍,MiMo-VL-7B-SFT 通过四阶段预训练,结合高质量、多样化的推理数据,显著提升了模型的推理能力。而 MiMo-VL-7B-RL 则在此基础上引入了混合 On-policy 强化学习(MORL),进一步优化了模型在感知、视觉定位、逻辑推理和人类偏好对齐等多方面的表现。在权威基准测试如 AIME 等公开测评中,MiMo-VL-7B 以 7B 参数规模超越了 OpenAI GPT-4o 及阿里 Qwen2.5-VL-72B 等更大参数量的模型,成为同级别开源模型中的佼佼者。
MiMo-VL-7B 系列模型已在 Hugging Face 和 ModelScope 平台同步开源,便于开发者部署和本地推理。小米方面表示,未来将持续优化 MiMo 体系,并积极推动其在智能终端、机器人和自动驾驶等场景的落地应用。
免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。
来源:前方智能AI