小米大模型团队登顶音频推理MMAU榜
在当今人工智能技术飞速发展的时代,音频理解领域又迎来了一项重大突破。3月17日,小米技术官微发布一则振奋人心的消息:小米大模型团队在音频推理领域取得了突破性进展。受DeepSeek-R1的启发,团队率先将强化学习算法创新性地应用于多模态音频理解任务,仅耗时一周
在当今人工智能技术飞速发展的时代,音频理解领域又迎来了一项重大突破。3月17日,小米技术官微发布一则振奋人心的消息:小米大模型团队在音频推理领域取得了突破性进展。受DeepSeek-R1的启发,团队率先将强化学习算法创新性地应用于多模态音频理解任务,仅耗时一周
受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。
小米大模型团队在音频推理领域取得了一项引人注目的成就。近日,该团队宣布,他们受Deepseek-R1的启发,在国际权威的MMAU音频理解评测中取得了突破,以64.5%的准确率登顶榜首,并且已经将相关技术开源。
面对一段汽车行驶中的座舱录音,AI 能否判断出汽车是否存在潜在的故障?在交响乐演出现场,AI 能否推测出作曲家创造这首音乐时的心情?在早高峰地铁站混乱的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?在大模型时代,人们已经不满足于机器仅仅识别说话的内容、声
来自阿里的Qwen2-Audio-7B模型在此评测集上的准确率为49.2%,经小米大模型团队用清华大学发布的AVQA数据集,使用SFT微调后提升到了51.8%。
@小米技术 官微今日发文称,小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。