摘要:通常,语音翻译模型采用多步骤方法。首先,将语音翻译成文本;然后,将文本翻译成另一种语言的文本;最后,将翻译后的文本转换为新语言的语音。然而这种方法不仅效率低下,而且每一步都可能出现错误和误译。而Meta新模型SeamlessM4T可以更直接将一种语言的语音翻译
Meta发布了一款新的人工智能模型,可以翻译101种不同语言的语音。这代表着其向实时同声传译迈出了关键一步。
通常,语音翻译模型采用多步骤方法。首先,将语音翻译成文本;然后,将文本翻译成另一种语言的文本;最后,将翻译后的文本转换为新语言的语音。然而这种方法不仅效率低下,而且每一步都可能出现错误和误译。而Meta新模型SeamlessM4T可以更直接将一种语言的语音翻译成另一种语言的语音。
Seamless文本翻译准确率比现有顶级模型高出23%。尽管另一个模型,即谷歌AudioPaLM,在技术上可以翻译更多语言(113种),但只能将其翻译成英语。而SeamlessM4T可以翻译成36种其他语言。
这其中关键在于一种称为并行数据挖掘的过程,该过程从抓取的网络数据中查找视频或音频中的声音与另一种语言的字幕相匹配的情况;该模型学会了将一种语言中的声音与另一种语言中匹配的文本片段联系;这为模型开辟了一个全新的翻译示例宝库。
昆尼皮亚克大学计算机科学教授Chetan Jaiswal表示:“Meta取得了很大的成就,SeamlessM4T支持多种不同的功能,比如文本转语音、语音转文本,甚至自动语音识别,仅是支持的语言数量就已是一个巨大的成就。”
来源:93913虚拟现实
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!