摘要:该模型使用数千万小时音频数据,融合大规模语言模型语义理解能力。通过引入 Context 增强模块和 RAG 机制,针对幻觉和串语种问题进行了优化,在高噪声场景下表现出色。其支持低延迟流式识别、跨中英文自然切换以及用户可自定义的热词识别,可覆盖视频会议、实时字幕
IT 时代网讯:9 月 15 日消息,阿里巴巴通义实验室推出了 FunAudio-ASR 端到端语音识别大模型。
该模型使用数千万小时音频数据,融合大规模语言模型语义理解能力。通过引入 Context 增强模块和 RAG 机制,针对幻觉和串语种问题进行了优化,在高噪声场景下表现出色。其支持低延迟流式识别、跨中英文自然切换以及用户可自定义的热词识别,可覆盖视频会议、实时字幕、智能终端等多样化应用场景。
来源:IT时代网