小米扔出王炸！自研语音大模型开源，多项测试力压竞品

摘要：这款模型可真不一般，参数规模直接达到了70亿，预训练数据更是堆到了超过1亿小时。而且在开源模型的语音智能和音频理解基准测试里，它拿到了行业最优的成绩，不仅超过了同参数级别的开源模型，连谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio

9月19日，科技媒体智东西放出一条重磅消息：小米正式开源了首个原生端到端语音模型，名字叫Xiaomi-MiMo-Audio。

这款模型可真不一般，参数规模直接达到了70亿，预训练数据更是堆到了超过1亿小时。而且在开源模型的语音智能和音频理解基准测试里，它拿到了行业最优的成绩，不仅超过了同参数级别的开源模型，连谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview这些闭源的行业标准都在多项测试里被它比了下去。

消息一出，科技圈立刻热闹了起来。有网友说，这是小米在语音AI领域的一次大胆尝试，也有人表示怀疑，小米一直靠手机、家电这些硬件赚钱，现在突然搞语音大模型，技术到底行不行？

看公开的测试数据和模型配置，MiMo-Audio在音频理解方面，直接超过了谷歌的闭源语音模型Gemini-2.5-Flash。在更难的“音频复杂推理”场景，也就是Big Bench Audio S2T任务里，它又比OpenAI的GPT-4o-Audio-Preview做得更好。

谷歌和OpenAI都是AI领域的顶尖玩家，它们的闭源模型代表了行业最高水平。MiMo-Audio能在这些关键测试中胜出，说明它的技术实力很强。

而且这个模型的训练数据超过了1亿小时，参数有70亿，这在开源语音模型里算是相当大的投入了。这么大的数据量能让模型接触到各种各样的语音场景，不管是方言、专业术语还是日常聊天，它都能学得更全面，以后处理不同任务时也更灵活。小米在这款语音模型上的投入和成果，都是实实在在的。

MiMo-Audio作为一个语音模型，能跟人聊哲学、人生、理想，还能学网络热梗、当英语陪练，甚至能代替人做游戏直播、上课、唱歌、讲脱口秀。

它如果遇到“手机内存不够，必须删掉你和GPT中的一个”这种难题，并不会像机器人一样机械地回答“删我”或“删它”，而是先建议用户清理缓存，想办法保住两个模型；如果实在没办法，它会客观分析自己和GPT的优势，让用户自己选择，最后还会“表忠心”拉近距离。

用户在练习英语口语时，它听了你说的句子，会先给你纠正后的版本，然后告诉你哪里错了，还会解释语法错误的原因。有人问它想活出什么样的人生，它也没有说空话，而是紧扣做大家身边最贴心的声音伙伴的这个定位来回答。

它还会说天津话，还能自己编快板词夸自己，说完还会补一句“虽然没有竹板的声音，但节奏感很到位”，连这种细节都考虑到了。

这次小米开源的不是单个模型，而是整个工具箱，包括了预训练模型MiMo-Audio-7B-Base、指令微调模型MiMo-Audio-7B-Instruct，还有配套的MiMo-Audio Tokenizer模型，甚至连技术报告和评估框架都一起放出来了。

开发者拿到这些，不仅能直接用模型，还能根据自己的需求做二次开发。这种全方位的开源，诚意真的很足。而且官方也明确说了会持续开源，还专门开发了全面的评估基准，不仅能测MiMo-Audio，其他音频大模型也能用来评估。小米是真的想长期投入，和开发者一起把语音AI生态做起来。

很多网友觉得做硬件的只能搞手机、家电，玩不了AI大模型这种高技术活，但MiMo-Audio用实际行动证明：只要专心投入，硬件厂商也能在AI领域拿出厉害的东西。

单靠一家企业的力量，很难把语音AGI的路走宽，但大家一起合作，说不定过不了多久，手机里的语音助手就不只是能聊天，还能帮忙处理工作、陪老人解闷、辅导孩子功课，真正成为身边贴心的声音伙伴。

来源：时光故事会

标签：模型语音小米开源竞品

本文地址：http://news.43b.com.cn/a/1263233.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐