科幻“巴别鱼”真来了?AI实现人类101种语言语音互译

B站影视 2025-01-16 07:54 2

摘要:就在今天,权威科学期刊Nature报道了由Meta开发的开源多语言、多模态机器翻译模型SeamlessM4T,其突破性地实现了100多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译,为全球语言沟通带来了新的可能。

《银河系漫游指南》中的神奇“巴别鱼”,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中“高效语言交流”的终极形式。

如今,我们距离实现这一梦想或许不远了。

就在今天,权威科学期刊Nature报道了由Meta开发的开源多语言、多模态机器翻译模型SeamlessM4T,其突破性地实现了100多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译,为全球语言沟通带来了新的可能。

具体而言,SeamlessM4T能够接受这些语言中的任何一种的文本或语音输入,并将其翻译为文本,还可以直接将语音翻译为36种语言的语音。

不仅如此,SeamlessM4T在处理语音到文本任务时,抵御背景噪音和适应说话者变化的能力也比其他系统平均高出约50%,展现出强大的鲁棒性。

对此,塔林理工大学语言处理教授TanelAlumäe在评论文章中表示,“作者利用现实世界数据的方法将为语音技术开辟一条充满希望的道路,有望与科幻作品中的技术相媲美。”

他还写道,“这项工作最大的优点并非提出的想法或方法,而是运行和优化该技术的所有数据和代码都可公开获取,尽管模型本身仅可用于非商业用途。研究人员将他们的翻译模型描述为‘基础模型’,这意味着它可以在精心策划的数据集上进行微调,以实现特定目的,例如提高某些语言对或专业术语的翻译质量。”

当前,在这项研究的基础上,Meta基于UnitY2架构,运用层级字符到单元的上采样和非自回归文本到单元的解码方法,训练出了改进版本SeamlessM4TV2,在保持高准确率的同时,加快了生成语音和文本翻译结果的速度。

AI正在打破人类语言壁垒

尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译(S2ST)面临诸多挑战。

现有的多语种翻译系统通常依赖于级联系统,通过多个子模型串联完成复杂任务,不仅翻译效率低,而且主要适应于少数几种语言,在面对背景噪音和说话人变化等不稳定因素时,鲁棒性不足。

为了解决这些问题,SeamlessM4T应运而生。该模型基于SONAR多语言和多模态嵌入空间架构,将语音、文本的处理能力有效结合,并通过海量原始语音和文本数据自动挖掘对齐资源,实现了翻译的准确性和流畅性提升。

另外,研究团队还采用自监督和半监督学习方法训练模型,使其能从大量原始数据中学习,减少了对人工特定标签的依赖。

图|SEAMLESSM4T-V2系统架构

在数据层面,SeamlessM4T通过新的语言识别(LID)模型识别100多种语言。在研究过程中,Meta团队基于SONAR嵌入空间为200种语言提供了单一的文本编码器和解码器,并为37种语言提供了语音编码器,且通过文本到文本翻译(T2TT)任务,证明注意力机制并非实现合理翻译准确率的必要条件。利用SONAR的文本和语音编码器,Meta团队挖掘出三种对齐数据,构建了涵盖37种语言、时长超47万小时的SeamlessAlign语料库。

SeamlessM4T在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。与AudioPaLM、WHISPER等大型语音理解和生成模型相比,SeamlessM4T优势明显。

在语音到文本翻译(S2TT)任务的X-eng方向,SeamlessM4T-V2的BLEU得分比传统级联系统提高了4.6分,性能提升显著;对比AudioPaLM2-8BAST等直接S2TT模型,提高了6.9分,展现出其在多语种翻译中的强大优势。

在语音到语音翻译(S2ST)任务中,SeamlessM4T-LARGE比两阶段级联模型的ASR-BLEU得分高出8分,改进以后的SeamlessM4T-V2进一步提升了3.9分,显著领先于其他同类系统。

在语音到文本翻译的CVSS任务中,SeamlessM4T-V2相较于两阶段级联模型,ASR-BLEU得分提高了9.6分。

图|SOTA语音到文本翻译/语音到语音翻译模型

在零样本文本到语音翻译(T2ST)任务中,SeamlessM4T-LARGEV2部分语言方向的表现与级联模型相当,甚至更优,体现了模型强大的通用性和灵活性。

这表明,SeamlessM4T在没有训练数据的情况下,仍然能够提供准确的翻译结果,进一步提升了模型的通用性和灵活性。

SeamlessM4T在抗噪声和适应说话人变化方面也实现了技术突破。在背景噪音和说话人变化的实验中,SeamlessM4T-V2比WHISPER-LARGE-V2的表现提升近50%。

在语音到语音翻译任务中,SeamlessM4T-V2抗背景噪声能力提高42%,对说话人变化的适应性提升66%。这些改进使SeamlessM4T在嘈杂环境等实际应用场景中,仍能保证高效、精确的翻译表现。

图|多任务处理结果

此外,随着AI技术的广泛应用,机器翻译模型中的毒性和偏见问题备受关注。Meta团队对SeamlessM4T进行了严格的毒性和性别偏见评估,并采取了缓解措施。

图|语音到文本翻译和语音到语音翻译在添加了毒性考量的28种语言方向上的平均结果

在毒性检测方面,他们采用ETOX、MuTox和Mintox等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过BLASER2.0等工具对SeamlessM4T进行检测和优化,SeamlessM4T在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在S2ST任务中的性别变化鲁棒性显著提升。

警惕潜在风险

尽管SeamlessM4T已经可以翻译约100种语言,但仍然存在一些局限性。

世界上约有7000种语言,该工具在许多人类易处理的场景中仍面临困难。而且,在实际应用中,SEAMLESSM4T系统的ASR性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。

在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时,语音的韵律和情感信息在当前系统输出中未得到充分体现,影响信息准确传达。

研究人员表示,未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。

在评论文章中,康奈尔大学助理教授AllisonKoenecke则从安全方面提出了担忧,“基于语音的技术越来越多地用于高风险任务,例如在医疗检查中做笔记或转录法律程序,像Meta团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性。”

Koenecke提到,鉴于现有模型的性能在不同语言之间差异很大,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。

此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包括在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提示。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。

来源:Sug科技聚焦

相关推荐