阿里新模型 FunAudio-ASR 幻觉率爆降 70%

摘要：该模型使用数千万小时音频数据，融合大规模语言模型语义理解能力。通过引入 Context 增强模块和 RAG 机制，针对幻觉和串语种问题进行了优化，在高噪声场景下表现出色。其支持低延迟流式识别、跨中英文自然切换以及用户可自定义的热词识别，可覆盖视频会议、实时字幕

IT 时代网讯：9 月 15 日消息，阿里巴巴通义实验室推出了 FunAudio-ASR 端到端语音识别大模型。

该模型使用数千万小时音频数据，融合大规模语言模型语义理解能力。通过引入 Context 增强模块和 RAG 机制，针对幻觉和串语种问题进行了优化，在高噪声场景下表现出色。其支持低延迟流式识别、跨中英文自然切换以及用户可自定义的热词识别，可覆盖视频会议、实时字幕、智能终端等多样化应用场景。

来源：IT时代网

标签：模型幻觉音频语音识别 context

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!