小米大模型团队登顶音频理解和推断 MMAU 榜单 训练代码模型参数开源
面对一段汽车行驶中的座舱录音,AI 能否判断出汽车是否存在潜在的故障?在交响乐演出现场,AI 能否推测出作曲家创造这首音乐时的心情?在早高峰地铁站混乱的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?在大模型时代,人们已经不满足于机器仅仅识别说话的内容、声
面对一段汽车行驶中的座舱录音,AI 能否判断出汽车是否存在潜在的故障?在交响乐演出现场,AI 能否推测出作曲家创造这首音乐时的心情?在早高峰地铁站混乱的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?在大模型时代,人们已经不满足于机器仅仅识别说话的内容、声
来自阿里的Qwen2-Audio-7B模型在此评测集上的准确率为49.2%,经小米大模型团队用清华大学发布的AVQA数据集,使用SFT微调后提升到了51.8%。