摘要:这项由上海AI实验室的詹润哲、李亚福等研究人员联合澳门大学、南京大学、香港中文大学共同完成的研究于2025年10月发表在arXiv预印本平台(论文编号:arXiv:2510.02245v1),有兴趣深入了解的读者可以通过该编号查询完整论文。
这项由上海AI实验室的詹润哲、李亚福等研究人员联合澳门大学、南京大学、香港中文大学共同完成的研究于2025年10月发表在arXiv预印本平台(论文编号:arXiv:2510.02245v1),有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们学习数学题时,通常会把做对的题目收集起来反复练习,让自己越来越熟练。但现在的AI大模型在学推理时却有个奇怪的习惯:它们每次练习完一道题后,就把这次的经验丢掉了,下次遇到类似问题时又要重新开始。这就像一个学生做完练习册后立刻把答案撕掉,永远记不住自己是怎么做对的。
为了解决这个问题,研究团队开发了一个叫做ExGRPO(Experiential Group Relative Policy Optimization,经验性群体相对策略优化)的新方法。这个名字虽然听起来很学术,但它的核心思想很简单:就是让AI学会像人一样,把有用的学习经验保存下来,需要的时候再拿出来复习。
研究团队首先做了一个很有趣的实验。他们发现,并不是所有的学习经验都同样有价值。就像学生做题一样,太简单的题目学不到什么新东西,太难的题目可能会让人更困惑,只有那些"刚好合适"的中等难度题目最有学习价值。具体来说,那些能做对一半左右的题目,往往是最好的学习材料。
更有趣的是,研究团队还发现了一个判断"好经验"的简单方法。在AI的世界里,有个叫做"熵值"的概念,简单理解就是AI回答时的"确定程度"。当AI很确定自己的答案时,熵值就低;当AI犹豫不决时,熵值就高。研究发现,那些熵值较低的回答往往质量更好,推理过程更靠谱。这就像学生做题时,那些答得很流畅、逻辑清晰的解答,通常比那些磕磕绊绊、反复修改的答案要好得多。
基于这些发现,研究团队设计了ExGRPO系统。这个系统的工作方式可以比作一个非常聪明的学习管家。当AI做题时,学习管家会仔细观察每道题的难度和AI的表现。对于那些做对了的中等难度题目,管家会把整个解题过程记录下来,存放在一个"经验库"里。这个经验库按照题目难度进行分类,就像把练习题按照难易程度分别装在不同的文件夹里。
当AI需要继续学习时,学习管家不会随机选择经验。它会优先从那些"黄金难度"的文件夹里挑选经验,而且还会特别选择那些当初回答得最流畅(熵值最低)的解答过程。这样,AI就能反复学习那些最有价值的解题思路。
但这里有个技术难题需要解决。AI的"思维方式"在不断变化,今天的AI和昨天的AI已经不完全一样了。直接用昨天的经验来指导今天的学习,就像用旧版地图导航一样,可能会出现偏差。为了解决这个问题,研究团队使用了一种叫做"重要性权重"的技术,就像给旧地图标注"这条路现在可能有变化"一样,让AI知道这些旧经验需要用多大的参考价值。
此外,研究团队还设计了一个"混合学习"策略。在每次学习时,AI不只是复习旧经验,还会接触一些全新的题目。这种新旧结合的方式,既保证了AI能巩固已有的知识,又不会因为过度依赖旧经验而失去探索新知识的能力。
研究团队在五个不同规模的AI模型上测试了这个方法,从15亿参数的小模型到80亿参数的大模型都有涉及。测试内容包括数学推理题(如美国数学邀请赛AIME、美国数学竞赛AMC等)和通用推理题(如科学问答、逻辑推理等)。结果显示,使用ExGRPO的AI模型在数学推理任务上平均提升了3.5分,在通用推理任务上更是提升了7.6分。
更令人惊喜的是,ExGRPO还解决了一些现有方法的稳定性问题。研究团队发现,有些AI模型用传统方法训练时会出现"学崩了"的情况——越学越差,最终完全无法正常回答问题。但使用ExGRPO后,这些模型都能稳定地持续改进,避免了学习过程中的崩溃。
研究团队还深入分析了为什么ExGRPO会这么有效。他们发现,关键在于经验的"利用效率"而不是经验的"数量多少"。一个AI模型即使积累了很多学习经验,如果不会有效利用,反而可能被低质量的经验误导。ExGRPO通过精心选择高质量经验,让AI的每一次复习都更有针对性,从而大大提高了学习效率。
有趣的是,研究还发现了一个"雪球效应"的现象。如果AI反复学习那些推理过程有缺陷的经验,就会越来越容易犯同样的错误。比如,在数学题中,AI有时会生成一些不必要的代码来验证答案,虽然最终答案可能是对的,但这种"绕弯子"的解题方式会让推理过程变得冗长和不自然。ExGRPO通过优先选择那些推理过程简洁明了的经验,有效避免了这种问题。
这项研究的意义不仅仅局限于让AI做题更厉害。它代表了一种全新的AI学习范式:让AI具备"反思学习"的能力。传统的AI训练更像是填鸭式教育,而ExGRPO则更像是引导AI进行主动的、有选择性的学习。
当然,这个方法也有一些局限性。目前的研究主要集中在数学和逻辑推理这样有明确正误标准的任务上。对于那些更加主观、创意性的任务(比如写作、艺术创作),如何定义和选择"好经验"还是一个开放性问题。此外,ExGRPO可能会让AI过度关注那些已经掌握的知识,而对真正的创新和突破性思考有所限制。
不过,研究团队认为这只是一个开始。随着技术的不断发展,这种基于经验学习的方法有望扩展到更多领域。未来的AI可能会像经验丰富的专家一样,不仅知识渊博,还能灵活运用过往的成功经验来解决新问题。
说到底,ExGRPO展现了一个重要趋势:AI正在从简单的模式识别和模仿,向更加智能的自主学习和经验积累方向发展。这种变化可能会让AI在各个领域的表现更加出色,也让我们离真正"聪明"的人工智能更近了一步。对于普通人来说,这意味着未来的AI助手可能会更加可靠、更懂得从错误中学习,也更善于解决复杂的实际问题。
Q&A
Q1:ExGRPO是什么?它是如何让AI变得更聪明的?
A:ExGRPO是上海AI实验室开发的一种新型AI学习方法,全称是"经验性群体相对策略优化"。它让AI能够像人一样保存和重复利用有价值的学习经验,而不是每次学完就丢弃。通过优先选择中等难度的成功经验进行复习,AI的推理能力得到显著提升。
Q2:这种方法在实际测试中效果如何?
A:研究团队在五个不同规模的AI模型上测试了ExGRPO,结果显示数学推理任务平均提升3.5分,通用推理任务提升7.6分。更重要的是,它解决了传统方法中AI训练不稳定、容易"学崩"的问题,让学习过程更加可靠。
Q3:ExGRPO对普通人使用AI会有什么影响?
A:虽然ExGRPO主要是底层技术改进,但它会让AI助手变得更加可靠和智能。未来的AI可能更善于从过往经验中学习,解决复杂问题的能力更强,回答质量也更稳定,这意味着人们在使用AI时会获得更好的体验和更准确的帮助。
来源:新浪财经