摘要:西奥多在一次偶然中接触到由人工智能系统驱动的虚拟人“萨曼莎”,被她迷人且富有磁性的声音深深吸引。萨曼莎通过语音交互,为西奥多开导失恋后的心情,并倾听和回应他的喜怒哀乐。就这样,两人的感情在虚拟与现实之间,逐渐升温,甚至发展成爱情。
西奥多在一次偶然中接触到由人工智能系统驱动的虚拟人“萨曼莎”,被她迷人且富有磁性的声音深深吸引。萨曼莎通过语音交互,为西奥多开导失恋后的心情,并倾听和回应他的喜怒哀乐。就这样,两人的感情在虚拟与现实之间,逐渐升温,甚至发展成爱情。
这是十二年前的一部经典科幻电影《Her》中的情节,而故事的时间设定恰恰就是 2025 年。
将时间拉回到现实世界,伴随大模型技术的快速迭代,智能语音已在智能客服、智能家居、智能车载,以及教育、医疗、企业服务等多个领域落地应用。根据调研报告显示,2024 年智能语音技术的市场规模为 469 亿元,其中在银行智能外呼场景,渗透率高达 85%。
从消费级到产业级,智能语音交互正迎来场景需求的爆发。与此同时,行业对智能语音技术的衡量标准不再只是高识别准确率和低响应延迟,“个性化表达”与“情感化交互”体验正逐渐成为应用的焦点,这对新一代语音大模型的研发提出了涵盖语义理解、情感计算、个性适配等多维度的复合型技术挑战。
在 2024 年,中国电信人工智能研究院(TeleAI)曾发布"超自然语音生成"系统 TeleTTS 1.0,采用创新的离散 Token 建模方法,通过语音提示实现了具有细腻情感表现力的语音合成,接近真人水平的自然流畅度,以及支持普通话、方言及英语的无缝混合输出。这一突破性进展不仅大幅提升了语音合成的自然度和实用性,更使其在性能指标上超越 OuteTTS、CosyVoice2 等业内主流方案,跻身行业领先水平。
然而,以上方案在实际应用中仍面临诸多挑战。具体而言,当语音提示信息经过离散 Token 压缩编码后,往往会导致声学特征损失;同时,语音提示与对应文本的强耦合性要求,以及语言模型原有文本理解能力的显著退化等问题,都限制了这些技术在真实产业场景中的表现。
针对这些挑战,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队创新提出了一种“文音双流语音生成大模型 GOAT-TTS”(LLM-based Text-To-Speech Generation approach Optimized via a novel dual-branch ArchiTecture),该技术通过深度融合预训练语音编码器与语言模型,构建了从语音提示理解到语音内容生成的端到端解决方案。这一创新架构不仅攻克了现有技术难题,更为智能语音交互体验的全面升级提供了关键性底层技术支撑。
打通跨模态鸿沟 文音双流语音生成
GOAT-TTS 语音生成模型通过训练过程中的多种创新策略,建立了语种、韵律、情感等特征和语义文本的关联,实现了跨模态对齐。并在语音生成过程中,实现了复杂上下文的理解能力,支持实时流式语音合成。既能听得懂,又能懂得深,还能说得好。
跨模态对齐
当前的语音生成大模型在实际应用中,语音提示经过离散化编码往往会损失原本丰富的声学特征细节(如语种、韵律、情感等),最终导致后续生成语音的自然韵律丢失,情感细节模糊,声音质感下降。此外,在模型推理过程中,用户需要同时提供语音及其对应文本,也给语音生成大模型带上了枷锁,严重制约了实际场景中的部署灵活性以及模型对任意提示语音的鲁棒性。
为了解决这些问题,GOAT-TTS 框架采用语音-文本续写对作为语音-文本对齐的核心训练数据,并通过两种策略来构建这些数据,让模型具备理解语音并进行续写的能力。
第一层:针对声学多样性的声学-语义数据构造
充分利用已有的大规模自动语音识别(ASR)语料库(涵盖普通话、英语及方言),通过提示 LLM 根据语音转写文本生成语义连贯的续写文本,作为 LLM 接受语音输入时的输出目标,也就是让 LLM 能把语音中的“弦外之音”(声学特征)和文本中的“字面意思”(语义)联系起来,让它续写时既有文字连贯性,又带着原语音的灵魂。该方法能够充分利用 ASR 语料库具备声学多样性的声学-语义关联特征。
第二层:针对语义多样性的声学-语义数据构造
通过使用 TTS 将语义丰富且连贯的文本短句转换为语音,同时由 LLM 根据文本短句生成对应的续写文本,从而构造出具有广泛语义多样性与句法连贯性的声学-语义关联数据。
此外,在文本续写过程中,TeleAI 团队还为输入文本添加自然语言描述符(如方言类别、情感标记等)。这种显式语义引导使模型能够理解诸如方言、情感等非语言信息。
在训练过程中,GOAT-TTS 也分为两步。第一步聚焦普通话与英语数据的训练,旨在为 Projector(投影)模块建立稳健的语义解析基础。此阶段通过控制早期优化过程中的梯度方差,有效缓解训练不稳定性。第二步,基于经过语言/方言与情感维度精细平衡的数据集,进一步优化编码器与 Projector 转换模块。
在以上训练过程中,LLM 参数均保持冻结状态。这种分阶段策略成功将多语言、多方言信息整合至统一语义嵌入空间,确保了语音与文本模态间的跨模态一致性及泛化能力。同时使 LLM 能够通过其连续的声学嵌入直接解释语音提示,而不是依赖于离散 Token,从而保留了更多原始语音特征,并消除了对精确转录的依赖。
流式语音生成,同时实现复杂上下文理解
在高阶语音生成能力的构建过程中,模型并不总是“学得越多,懂得越多”。
大量案例表明,随着训练的不断深入,作为智能语音交互基础的大语言模型,经常会发生文本理解能力显著退化的现象。这种“捡起芝麻丢了西瓜”的灾难性遗忘时刻,可能源于预训练知识结构与语音生成任务之间的内在冲突。模型底层的基础语言知识并不牢靠,被更新的学习任务挤占,导致语音生成的合理性大受影响。
为了减少灾难性遗忘的发生,GOAT-TTS 在语音生成的过程中采用逐层参数冻结的策略:将大语言模型底部 N 层的参数保持冻结,以保障预训练的语言知识“坚守阵地”不被挤占;仅微调 LLM 的顶部 K 层参数,用于语音 Token 预测。这样地基牢固、顶层微调的方式,可以维持正常的文本理解能力。
实时语音生成是和秒针赛跑的艺术,如何在极短的时间内生成自然通顺、答其所问、声情并茂的语音片段,是提升语音交互体验的关键。
为此,GOAT-TTS 实现了多 Token 预测机制,同时预测接下来多个语音 Token,以减少文本和语音 Token 生成之间的频率差异。在推理过程中,任意语音提示会由语音编码器和 Projector 模块映射到 LLM 嵌入空间中;模型借助多 Token 预测技术,能一次性生成多个语音 Token,并通过流匹配模型转换为最终合成的语音输出。GOAT-TTS 的多 Token 预测能力使系统能够以比传统自回归模型更快的速率生成语音 Token,并且支持实时流式合成。
GOAT-TTS 性能效果
语音生成稳定性测试
为了验证该模型的稳定性,研究团队首先在标准测试集 SEED(涵盖中文测试集 test-zh、英文测试集 test-en 及高难度测试集 test-hard)上评估 GOAT-TTS 模型,并与 FireRedTTS、MaskGCT、CosyVoice2等前沿开源零样本语音合成模型进行对比。
在非流式推理场景中,GOAT-TTS 在中文测试集位列第三,仅次于 CosyVoice2 与 FireRedTTS。在高难度测试集与英文测试集中,本模型分别位列第二与第三,进一步证明了其应对多样化场景提示语音的稳定性与鲁棒性。
值得关注的是,在与流式推理策略模型 CosyVoice2-S 的对比中,GOAT-TTS 在英文与高难度测试集中全面占优,充分验证了其原生流式推理架构的显著优势。
方言生成能力测试
在方言生成场景中,研究团队选取开源 KeSpeech 数据集中的中原官话与西南官话作为目标方言并随机采样,交给 GOAT-TTS 与 CosyVoice2 进行合成。
二者生成的方言语段,再用于训练 ASR(自动语音识别)模型。两者教出来的方言识别“ASR 徒弟”,来进行方言识别功力对比。实验结果表明,GOAT-TTS 教出的“徒弟”,方言识别准确率要显著优于 CosyVoice2,中原官话与西南官话的识别字错误率(WER)分别降低 21.0% 与 33.4%。进而可以倒推证明,GOAT-TTS 的方言生成更准确,能力要更胜一筹。
尽管 GOAT-TTS 与真实方言数据训练出的“徒弟”(图中的 GT)仍存在差距,但利用 GOAT-TTS 合成的拟真人语音,可显著提升基线方言 ASR 模型的效果,提升幅度超 59%。
作为最早布局人工智能的央企科研机构,TeleAI 持续深耕原创技术的研发和落地,目前已打造全模态、全尺寸、全国产的“三全”星辰大模型体系。
本次发布的文音双流语音生成模型 GOAT-TTS,对在复杂的上下文理解方面做了针对性补足,是 TeleAI 在语音大模型领域的又一重大突破。
面向产业场景,GOAT-TTS 通过支持文音双流语音生成,可以显著优化实时语音助手、虚拟客服、聊天机器人、语音陪伴等场景的智能语音交互体验,提升用户满意度和使用粘性,为产业规模扩展提供加速度。
面向科研创新,GOAT-TTS 强大的语音生成拟真度,可以反向赋能 ASR(自动语音识别),通过生成逼真的语音数据,提升低资源语言、口音的语音识别效果。而其零样本生成能力,则可以实现利用大语言模型的文本推断能力,在无语音数据的情况下,完成特定声学特征的生成。
面向社会公益,GOAT-TTS 一方面实现了有效的方言保护,另一方面也让智能语音交互的声波,通过方言直达乡村的最后一公里,让更多人享受普惠的智能。
未来,TeleAI 将持续深耕语音大模型技术研发,推动智能语音交互向个性化、情感化体验持续升级,并与开发者、企业合作伙伴及科研机构共建技术生态,共同探索智能语音交互的创新应用场景与产业价值。
论文地址:
来源:TeleAI