小米扔出王炸!自研语音大模型开源,多项测试力压竞品

B站影视 港台电影 2025-09-21 18:30 1

摘要:这款模型可真不一般,参数规模直接达到了70亿,预训练数据更是堆到了超过1亿小时。而且在开源模型的语音智能和音频理解基准测试里,它拿到了行业最优的成绩,不仅超过了同参数级别的开源模型,连谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio

9月19日,科技媒体智东西放出一条重磅消息:小米正式开源了首个原生端到端语音模型,名字叫Xiaomi-MiMo-Audio。

这款模型可真不一般,参数规模直接达到了70亿,预训练数据更是堆到了超过1亿小时。而且在开源模型的语音智能和音频理解基准测试里,它拿到了行业最优的成绩,不仅超过了同参数级别的开源模型,连谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview这些闭源的行业标准都在多项测试里被它比了下去。

消息一出,科技圈立刻热闹了起来。有网友说,这是小米在语音AI领域的一次大胆尝试,也有人表示怀疑,小米一直靠手机、家电这些硬件赚钱,现在突然搞语音大模型,技术到底行不行?

看公开的测试数据和模型配置,MiMo-Audio在音频理解方面,直接超过了谷歌的闭源语音模型Gemini-2.5-Flash。在更难的“音频复杂推理”场景,也就是Big Bench Audio S2T任务里,它又比OpenAI的GPT-4o-Audio-Preview做得更好。

谷歌和OpenAI都是AI领域的顶尖玩家,它们的闭源模型代表了行业最高水平。MiMo-Audio能在这些关键测试中胜出,说明它的技术实力很强。

而且这个模型的训练数据超过了1亿小时,参数有70亿,这在开源语音模型里算是相当大的投入了。这么大的数据量能让模型接触到各种各样的语音场景,不管是方言、专业术语还是日常聊天,它都能学得更全面,以后处理不同任务时也更灵活。小米在这款语音模型上的投入和成果,都是实实在在的。

MiMo-Audio作为一个语音模型,能跟人聊哲学、人生、理想,还能学网络热梗、当英语陪练,甚至能代替人做游戏直播、上课、唱歌、讲脱口秀。

它如果遇到“手机内存不够,必须删掉你和GPT中的一个”这种难题,并不会像机器人一样机械地回答“删我”或“删它”,而是先建议用户清理缓存,想办法保住两个模型;如果实在没办法,它会客观分析自己和GPT的优势,让用户自己选择,最后还会“表忠心”拉近距离。

用户在练习英语口语时,它听了你说的句子,会先给你纠正后的版本,然后告诉你哪里错了,还会解释语法错误的原因。有人问它想活出什么样的人生,它也没有说空话,而是紧扣做大家身边最贴心的声音伙伴的这个定位来回答。

它还会说天津话,还能自己编快板词夸自己,说完还会补一句“虽然没有竹板的声音,但节奏感很到位”,连这种细节都考虑到了。

这次小米开源的不是单个模型,而是整个工具箱,包括了预训练模型MiMo-Audio-7B-Base、指令微调模型MiMo-Audio-7B-Instruct,还有配套的MiMo-Audio Tokenizer模型,甚至连技术报告和评估框架都一起放出来了。

开发者拿到这些,不仅能直接用模型,还能根据自己的需求做二次开发。这种全方位的开源,诚意真的很足。而且官方也明确说了会持续开源,还专门开发了全面的评估基准,不仅能测MiMo-Audio,其他音频大模型也能用来评估。小米是真的想长期投入,和开发者一起把语音AI生态做起来。

很多网友觉得做硬件的只能搞手机、家电,玩不了AI大模型这种高技术活,但MiMo-Audio用实际行动证明:只要专心投入,硬件厂商也能在AI领域拿出厉害的东西。

单靠一家企业的力量,很难把语音AGI的路走宽,但大家一起合作,说不定过不了多久,手机里的语音助手就不只是能聊天,还能帮忙处理工作、陪老人解闷、辅导孩子功课,真正成为身边贴心的声音伙伴。

来源:时光故事会

相关推荐