摘要:近日,国内AI语音领域迎来了一次重大突破,上海大模型独角兽企业MiniMax旗下的Speech-02语音模型在全球两大权威语音基准测评中脱颖而出,力压OpenAI及知名AI语音企业ElevenLabs的模型,斩获多项SOTA(最优)成绩。
近日,国内AI语音领域迎来了一次重大突破,上海大模型独角兽企业MiniMax旗下的Speech-02语音模型在全球两大权威语音基准测评中脱颖而出,力压OpenAI及知名AI语音企业ElevenLabs的模型,斩获多项SOTA(最优)成绩。
据悉,Speech-02不仅在字错率(WER)和相似度(SIM)等关键指标上实现了与真人无异的表现,甚至在某些方面超越了真人水平。其强大的泛化能力更是令人瞩目,支持超过30种语言、多种口音及情绪化语音的个性化定制。这一成就得益于MiniMax在数据处理和模型架构上的创新。
Speech-02的性价比也极具竞争力。其每百万字符输出价格仅为50美元,不到ElevenLabs的四分之一,实现了性能与成本的完美平衡,加速了AI语音技术的商业化进程。目前,以Speech-02为代表的MiniMax语音交互模型已受到多家行业头部企业和新兴创新企业的青睐,商业化进展迅速。
近年来,AI语音技术逐渐从实验室走向实际应用,在教育、娱乐、智能家居等多个领域取得了显著成果。在教育领域,高途等企业利用新一代AI语音技术,推出了个性化的AI语言陪练系统,极大地提升了用户体验。而在有声书领域,阅文旗下的起点读书则通过定制化音色,赢得了用户的广泛好评。这些企业之所以能在语音交互技术上取得突破,离不开MiniMax等技术支持者的助力。
在今年的CES展会上,MiniMax的语音技术更是大放异彩。通过接入MiniMax的语音模型,跃然创新推出的AI语音挂件BubblePal在展会上一炮而红。这款小挂件能让普通毛绒玩具具备自然对话能力,还能根据儿童喜欢的卡通人物复刻音色,让孩子与卡通人物进行沉浸式对话。同样,爱小伴AI玩伴机器人也通过MiniMax的语音生成技术,打造了“会说话的AI奶龙”,为用户带来了全新的互动体验。
MiniMax的语音技术不仅适用于陪伴类AI硬件,还能在AI教育硬件、智能座舱等更广泛的领域发挥作用。这些具备强交互、定制化体验的AI硬件,正好切中了消费者对智能交互类产品日益增长的需求。例如,听力熊团队在其AI教育硬件上接入了MiniMax语音模型,为用户提供了更为丰富的学习互动体验。而北汽集团极狐汽车则在智能座舱中搭载了多款MiniMax大模型,为用户提供了及时响应的问答服务。
MiniMax的成功并非偶然。在其发布的Speech-02模型技术报告中,我们可以窥见其在技术上的深厚积累。Speech-02采用了自回归Transformer架构,并创新性地使用了“会学习的音色提取器”,实现了高质量、灵活的声音表达。同时,Flow-VAE模型的加入也让语音模型能够学会更自然、更多样的音频细节特征。这些技术创新共同构成了Speech-02的强大竞争力。
来源:ITBear科技资讯