摘要:在语音 AI 领域,模型想要做到「反应快」「会思考」「表达好」,几乎就是不可能三角:要么逻辑缜密但反应慢,要么响应迅速但没啥逻辑深度。Mini-Omni-Reasoner 的出现,打破了这个困境。它不是单纯加快语速,也不是堆大模型,而是提出了一个全新的思路——
在语音 AI 领域,模型想要做到「反应快」「会思考」「表达好」,几乎就是不可能三角:要么逻辑缜密但反应慢,要么响应迅速但没啥逻辑深度。Mini-Omni-Reasoner 的出现,打破了这个困境。它不是单纯加快语速,也不是堆大模型,而是提出了一个全新的思路——Thinking-in-Speaking:边想边说。
这不是一句口号,而是一整套经过精心设计的架构与训练方法,支撑起了真正的实时语音推理系统。它能做到:一边生成语音,一边在内部悄悄推理,让用户听到的是流畅自然的回答,背后却隐藏着层层演算的逻辑链。
人的沟通,本就不是写好剧本再演,而是边说边想。你问一个复杂问题,对方往往不是沉默十秒给你一段完美答案,而是「嗯,这个问题我觉得...可以从几个方面说起...」。
Mini-Omni-Reasoner 正是借鉴了这种模式。它摆脱了传统模型「先想完再说」的流程,采用了token 级交替生成机制:每输出一小段语音(比如 2 个 token),就插入一段内部推理(比如 8 个 token),循环往复,直到任务完成。
这种方式有两个好处:
零延迟:用户几乎感知不到停顿;推理在场:每句回答背后,都有刚刚完成的逻辑支撑。Mini-Omni-Reasoner 的技术骨架是「Thinker-Talker」双模块架构:
Thinker 是大脑,负责理解语音、做逻辑推理,并交错生成 reasoning 和 response token。Talker 是嘴巴,只把 response token 转化成语音,reasoning token 会被静默跳过,不会说出口。这样一来,模型既能在后台深入推理,又能前台快速应答,互不干扰。
为什么能做到这么快?答案在于:模型生成 token 的速度远远超过语音播放速度。在一秒内,模型可以生成 100 个 token,而语音播放最多只需要 12.5 个 token。Mini-Omni-Reasoner 就是利用了这条性能缝隙,实现了内部推理与语音同步生成的「非对称并行」。
模型每秒生成 100 个 token,如果全都用来生成语音,可能会逻辑跟不上;如果全都推理,用户又得等。
最终实验得出的最佳方案,是2:8 的回答–推理 token 比例:每两个用于语音输出的 token,配八个用于内部推理。这个比例背后有三重考量:
逻辑充分:推理链长于回答内容,有助于准确性;语音自然:20 个 response token 每秒,刚好足以维持自然语速;延迟极低:用户几乎无感知等待。这个比例并非拍脑袋定的,而是通过实验验证,在推理质量和语音流畅性之间,找到了一个非常稳的平衡点。
想让模型学会「边说边想」,不能靠几条 prompt。Mini-Omni-Reasoner 背后是一个四阶段数据生成管线,打造了高质量的训练集——Spoken-Math-Problems-3M,共 300 万条样本,专为语音推理优化。
关键挑战是:如何避免推理没完就说答案?为此团队引入两个机制:
异步设计:回答部分先说些铺垫语,比如“让我想想”,为推理争取时间;推理部分则直奔主题,无废话。GPT 验证:把交错 token 还原成自然语言,用 GPT 检查是否出现「提前说结论」「语义错位」等问题,筛除不合格样本。这套机制,确保了模型学到的是真正的「思考-表达」节奏,而不是简单模仿回答格式。
Mini-Omni-Reasoner 的训练不是一蹴而就的,而是分五个阶段,层层推进:
对齐训练:微调音频适配器,使语音输入和语言模型兼容;数学预训练:在语音+文本数据上训练模型的推理能力;文本交错训练:只用文本,让模型掌握推理-回答交替生成;语音交错训练:将输入换成语音,迁移推理能力到语音模态;Talker 训练:只训练生成语音的部分,确保输出自然、简洁。这种从文本到语音的逐步迁移,确保了模型既能「想清楚」,又能「说明白」。
在标准测试集 Spoken-MQA 上,Mini-Omni-Reasoner 对比基座模型 Qwen2.5-Omni-3B:
算术推理准确率提升 +12.4%多步逻辑推理提升 +4.1%语音输出长度减少 50%首次响应延迟为 0换句话说,它不仅更聪明,而且说得更快、更短、更好。
Mini-Omni-Reasoner 不是为了炫技术而存在,它解决的是一个真实痛点:语音 AI 的推理能力迟迟无法释放。通过创新的「Thinking-in-Speaking」机制,它让对话模型第一次实现了实时、自然、可解释的推理。
来源:老闫侃史