仅用1%数据量!智源开源全双工语音模型,重新定义人机对话边界

B站影视 港台电影 2025-10-03 16:36 1

摘要:2025年9月25号,智源研究院联合Spin Matrix和新加坡南洋理工,放了个大招,RoboBrain-Audio,说是全球首个能“自然独白+双训练”的原生全双工语音模型。

2025年9月25号,智源研究院联合Spin Matrix和新加坡南洋理工,放了个大招,RoboBrain-Audio,说是全球首个能“自然独白+双训练”的原生全双工语音模型。

之前用语音助手总闹心,要么打断了要等半天,要么读数字读得稀里糊涂,这次听着像是能解决这些麻烦。

平时咱们用的Kimi-Audio、MiMo-Audio这些语音模型,其实都是“排队干活”的,TDM架构,就是听、说、文本这些信息得挨个处理。

本来想举个具体例子,后来发现日常用就有感觉:你跟它说话时突然插话,它得愣2秒才反应过来,像没睡醒似的。

而且处理的信息越多,它越慢,因为所有通道的内容都堆在一个序列里,计算量跟着往上涨,这对要实时响应的场景来说,根本不顶用。

后来也有模型想改,比如Moshi,用了原生全双工架构,能“边听边处理”,打断响应快到80毫秒,这速度够可以了。

但它有个毛病,得给每个词标精确的时间戳,就像给每个字卡表,成本高不说,还把预训练好的语言能力给破坏了,指令让它干啥,它反而不灵光了。

RoboBrain-Audio就绕开了这个坑,直接不用词级对齐,改成“按句子对齐”。

这个思路挺绝的,不用再抠每个词的时间,只要标好句子就行,既省了成本,又没了对齐误差。

而且它训练用的数据也少,就100万小时,跟业界动辄上千万小时比,才1%,但效果没差,在LibriSpeech-clean测试里,比Moshi的ASR能力还强。

聊完架构,咱再说说这模型最牛的两个创新点,正是这俩让它跟其他模型拉开了差距。

第一个是“自然独白”。

之前用语音助手,常碰到它读错数字的情况,比如“2025”,有时候读“两千零二十五”,有时候读“二零二五”,全看它当时咋理解。

为啥会这样?因为传统模型是读一个词生成一个语音,没看全上下文。

RoboBrain-Audio不一样,它先把整个句子想完、生成好,再慢慢读语音,就像咱们说话“先想后说”,自然不会读错了。

而且就算你中途打断它,它也能马上停,不会跟你“抢话”,这体验就跟跟人聊天似的。

第二个是“双训练范式”,简单说就是分两步教模型干活。

第一步是“后训练”,用100万小时的音频文本对,还分成两种格式练:一种是先给文本再出语音,练“朗读”;一种是先给语音再出文本,练“听写”。

这样练下来,模型的基础能力就稳了,后来在Seed-TTS测试里,它的WER值跟专业的CosyVoice2差不多,这可不是随便练就能做到的。

第二步是“有监督微调”,分两个小阶段。

先练“半双工”,让模型先听你说、转成文本,再生成回复和语音,相当于“过渡训练”;再练“全双工”,故意把语音转文本的步骤藏起来,让模型直接从你说话里懂意思,还得在0.5秒内回应打断。

搞不清之前的模型为啥不这么练,这样练完,跟它聊天才真的“不费劲”。

这模型不只是技术厉害,更实在的是它的生态价值。

它直接在GitHub和Hugging Face开源了,代码和模型都能拿,开发者不用再自己从头做,尤其是家庭机器人、商场导览这些场景,用它能省不少事。

而且它是智源RoboBrain系列的一部分,之前的模型擅长“看东西、做动作”,现在加上它的“会聊天”,机器人就能“听懂话、看明白、干好事”,这一套下来,才算真的“智能”。

毫无疑问,RoboBrain-Audio不是光炫技术,是真解决了咱们用语音交互的痛点。

之前总觉得语音助手“不够聪明”,要么慢要么错,现在有了这个模型,以后跟机器人聊天,再也不用“等它反应”“纠正它读音”了。

未来要是把它跟机器人的其他能力结合好,不管是家里的服务机器人,还是商场的导购机器人,都能更“懂人”,这才是科技该有的样子,不是搞一堆复杂术语,而是实实在在让生活变方便。

来源:SpaceThink科技

相关推荐