清华大学团队开发神奇对话评分器:让AI对话质量评判更准确高效
多轮对话就像我们日常聊天一样,需要在好几个回合中保持逻辑连贯、情感恰当。这项由浙江大学的唐雨琦团队与阿里巴巴集团合作完成的研究发表于2025年8月,研究论文可通过GitHub代码库https://github.com/James-TYQ/MTDEval获取完整
多轮对话就像我们日常聊天一样,需要在好几个回合中保持逻辑连贯、情感恰当。这项由浙江大学的唐雨琦团队与阿里巴巴集团合作完成的研究发表于2025年8月,研究论文可通过GitHub代码库https://github.com/James-TYQ/MTDEval获取完整
该方法提出数据的预测强度(Predictive Strength) 的概念和计算公式,利用在不同模型上Loss有序性表征数据对特定能力的贡献,通过获取特定能力的有效样本训练fastText分类器对全量训练数据进行筛选。
OpenAI最近发布的新基准HealthBench,联手全球60个国家的262名执业医生,树立了新的「AGI标志性用例」。在这场AI与医生的正面交锋中,最强AI模型o3几乎达到了人类医生的最佳水平,甚至超越了部分医生的表现。