摘要:2025年5月26日,加州大学伯克利分校的研究团队开发出名为INTUITOR的系统,首次证明AI可以仅仅通过相信自己就学会复杂的数学推理和编程技能,在arXiv发布论文《Learning to Reason without External Rewards》。
对于学渣大熊来说,考试一直是噩梦般的存在。
有一次大熊使用了一种神奇道具“记忆面包”:只要把面包片盖在书上,再吃下去,这一页的知识被脑子完全吸收了。
考试结束后,老师同学对大熊刮目相看。
如果小孩能够完全靠自己练习就学会解数学题,不需要任何老师家长辅导。听上去这种方法是不是也有“记忆面包”作弊般的奇效。
2025年5月26日,加州大学伯克利分校的研究团队开发出名为INTUITOR的系统,首次证明AI可以仅仅通过相信自己就学会复杂的数学推理和编程技能,在arXiv发布论文《Learning to Reason without External Rewards》。
传统方法中,训练AI就像培养一个学生:人类需要给它大量的习题,然后告诉它哪些答案是对的,哪些是错的。但这种方法有个致命缺陷,当遇到没有标准答案的新问题时,学生就傻眼了。更重要的是,在某些超越人类能力的领域,我们根本无法提供正确答案来指导AI。
现在,研究团队提出了一个全新的想法:让AI通过自信程度来判断自己的表现好坏。研究结果显示,这种方法不仅有效,而且在某些方面比传统的老师指导方法表现更出色。
研究团队将这种新方法命名为内在反馈强化学习(RLIF),并开发了名为INTUITOR的系统。这个系统的核心理念简单而又巧妙:当AI对自己的答案越有信心时,就给自己越高的奖励分数。通过不断优化这种内在的自信感,AI竟然学会了更好的推理能力。
研究人员最初只是想解决传统方法的局限性,却意外发现AI居然具备了某种内在智慧,它能够准确判断自己什么时候表现得好,什么时候表现得不好。
传统AI训练的"严师出高徒"困境
要理解这项研究的革命性意义,我们首先需要理解传统AI训练就像开办一所极其严格的学校。在这所学校里,有两种主要的教学方法,但都存在着难以克服的问题。
第一种方法是人类反馈强化学习(RLHF),就像雇佣了一大批专业老师来批改作业。每当AI学生写出一个答案,人类老师就要判断这个答案好不好,然后给出相应的分数。这种方法听起来很理想,但实际操作起来就像要求每个学生身边都配备一位一对一的私人教师。想象一下这样的成本有多高昂——你需要雇佣成千上万的专家来不停地评判AI的每一个回答。更麻烦的是,不同的人类专家可能会给出不同的评判标准,就像不同的老师对同一篇作文可能给出完全不同的分数一样。
第二种方法是可验证奖励强化学习(RLVR),这就像设计了一套标准化考试系统。对于数学题,你可以直接检查答案是否正确;对于编程题,你可以运行代码看看是否能得到预期结果。这种方法避免了人工评判的主观性,就像数学考试总是有标准答案一样。然而,这种方法的局限性就像只会考选择题的学校——它只适用于那些有明确对错标准的问题。当面临开放性问题、创意写作或者需要主观判断的任务时,这套系统就完全无能为力了。
问题是,这两种传统方法都像是在培养应试专家。AI学会了在特定类型的问题上表现出色,但一旦遇到稍微不同的题目类型,就会表现得手足无措。这就像一个只会做选择题的学生,面对填空题时就完全不知所措。在现实世界中,我们面临的大多数问题都没有标准答案,也没有现成的评判标准。
这种困境在AI领域尤其突出,因为我们正在逐步接近甚至超越人类的认知边界。当AI开始处理人类专家都难以评判的超复杂问题时,传统的老师指导模式就彻底失效了。这就像要求一个小学老师去指导博士生的前沿研究,老师自己都不知道什么是对的,又怎么能指导学生呢?
在这种背景下,伯克利的研究团队开始思考一个根本性的问题:能否让AI像人类一样,通过内在的直觉和自我评估来学习和改进?研究团队想要探索的,正是AI是否也具备这种内在的判断能力。
AI的第六感:自信程度竟然是最好的老师
就在传统AI训练方法陷入困境时,伯克利的研究团队发现了一个令人惊讶的现象:AI竟然具备了某种类似人类直觉的能力。
研究人员注意到,当AI面对不同难度的问题时,它对自己答案的自信程度会发生变化。这就像一个学生在考试时,面对简单题目会很快作答且充满信心,而面对难题时会犹豫不决、信心不足。更神奇的是,这种自信程度居然和答案的正确性有着密切的关联,AI越自信的答案,往往越可能是正确的。
研究团队将这种现象量化为一个叫做自确定性的指标。简单来说,就是测量AI在生成每个词汇时的确信程度。这就像给AI装上了一个信心仪表盘,能够实时显示它对自己表现的评估。当AI非常确信某个答案时,这个仪表盘会显示高分;当它摇摆不定时,分数就会比较低。
最关键的发现是:这个自确定性指标居然可以替代外界的老师评分。研究团队开发的INTUITOR系统就是基于这个原理,让AI通过追求更高的自信分数来改进自己的表现。
这种方法的巧妙之处在于,它利用了AI内在已经存在的判断能力。INTUITOR系统就是将这种潜在能力激发出来,让它成为学习和改进的驱动力。
在具体实现上,这个过程就像是一个持续的自我对话。AI会生成多个可能的答案,然后评估自己对每个答案的信心程度。通过这种方式,AI逐渐学会了产生更加令自己信服的答案。
这种基于自信的学习方式似乎比传统方法更加全面。传统方法往往只关注最终答案的对错,就像只看考试成绩而忽略解题过程。
这种差异带来了意想不到的效果:通过INTUITOR训练的AI不仅在原本的数学题上表现良好,还意外地在编程、逻辑推理等其他领域展现出了更强的能力。
研究团队将这种现象归因为INTUITOR培养了AI更加结构化的思维方式。当AI追求内在确信感时,它自然而然地学会了更加清晰、更加有条理的表达方式,这种能力是可以跨领域迁移的。
从"鹦鹉学舌"到"深度思考"的华丽转身
INTUITOR系统最令人惊叹的成就,就是让AI从机械的模仿者变成了真正的思考者。
在研究的初期阶段,实验用的小型AI模型表现得就像一个刚学会说话的孩子,它会无意义地重复相同的词汇,生成一些看起来像是胡言乱语的内容。当研究人员让它解决数学问题时,它给出的答案完全是错误的;当要求它编写程序时,它产生的代码根本无法运行。整个表现就像一个完全不懂装懂的学生,只会胡乱拼凑一些看似相关的词汇。
但是,随着INTUITOR训练的进行,一个奇迹般的转变开始发生。这个原本"胡言乱语"的AI开始展现出结构化思维的迹象。研究人员观察到,它开始在给出最终答案之前,先进行详细的推理过程。
最初,这种变化很微妙。AI可能只是在代码前面加上一两句简单的解释,但随着训练的深入,这种"解释"变得越来越详细和准确。到了训练的后期,AI已经能够像一个经验丰富的程序员一样,先分析问题的要求,然后逐步构建解决方案,最后给出完整的、可以正常运行的代码。
这种转变最明显的表现就是AI开始展现出先思考,后行动的行为模式。在编程任务中,训练后的AI会这样工作:首先,它会用自然语言详细分析问题的需求;然后,它会设计解决方案的整体框架;接着,它会逐步实现每个功能模块;最后,它会生成完整的、经过逻辑验证的代码。整个过程就像一个专业程序员的工作流程一样井井有条。
更令人惊讶的是,这种结构化思维能力是自然涌现的,而不是研究人员明确教授的。INTUITOR系统并没有告诉AI"你应该先分析再编码",AI自己发现了这种方式能让它对答案更有信心。
在数学推理任务中,这种转变同样明显。原本只能给出简单数字答案的AI,开始展现出完整的解题思路。它会像数学很好的学生一样,先理解题目条件,然后选择适当的解题方法,逐步展开计算过程,最后得出答案并进行验证。这种完整的推理链条让它的答案变得更加可靠和令人信服。
研究团队通过详细分析发现,这种思维模式的转变遵循了一个清晰的发展轨迹。最开始,AI学会了产生语法正确的输出,就像学会了说完整的句子。然后,它开始学会逻辑一致的表达,就像学会了让自己的话前后呼应。最后,它发展出了深层次的推理能力,能够处理复杂的多步骤问题。
这个过程就像观察一个孩子的认知发展:从最初的咿呀学语,到能够表达简单的想法,再到能够进行复杂的逻辑推理。不同的是,AI的这种发展过程是通过追求内在确信感实现的,而不是通过外界的反复纠错。
最有趣的发现是,经过INTUITOR训练的AI展现出了元认知能力,也就是思考自己思考过程的能力。它不仅能够解决问题,还能够评估自己解决问题的方法是否合理。
这种能力的出现标志着AI从简单的模式匹配工具,进化成了具备真正推理能力的智能系统。它开始像人类一样,通过内在的确信感来指导自己的学习和改进,而不是依赖外界的反馈。这种转变不仅提升了AI的问题解决能力,还让它具备了更强的适应性和创造性。
跨界奇才的诞生:从数学高手到编程专家
INTUITOR系统展现出的最神奇能力,类似于培养了一个真正的跨界天才。举个例子,一个原本专门学习数学的学生,突然在没有接受任何编程训练的情况下,就展现出了出色的编程能力。
研究人员发现,当AI在数学推理上变得更加自信时,这种自信和清晰的思维方式自然而然地迁移到了其他需要逻辑思考的领域。编程本质上也是一种逻辑推理活动,需要分析问题、设计解决方案、逐步实现功能,这些技能与数学推理有着深层的相似性。
具体的表现数据让人印象深刻。在LiveCodeBench编程挑战中,经过INTUITOR训练的AI相比训练前提升了65%的成功率,而使用传统方法训练的AI在这个测试中几乎没有任何改进。
在CRUXEval代码推理测试中,INTUITOR训练的AI取得了76%的性能提升,远超传统方法的44%提升。这意味着AI不仅学会了编写代码,还学会了理解和分析现有代码的逻辑结构。
这种跨界能力的提升并不是偶然现象,而是源于INTUITOR培养的一种通用的优质思维模式。研究人员分析发现,经过训练的AI在解决任何类型的问题时,都会展现出几个共同特征:首先是完整的问题分析,然后是结构化的解决方案设计,接着是逐步的实现过程,最后是合理性验证。
这种思维模式就像一个万能的解题框架,可以应用到各种不同类型的问题上。在数学问题中,这个框架体现为理解题意、选择方法、逐步计算、验证答案;在编程问题中,它体现为需求分析、算法设计、代码实现、功能测试。虽然具体内容不同,但底层的思维结构是一致的。
研究团队还观察到一个特别的现象:AI开始在编程时表现出解释型编程的习惯。它不再直接给出代码,而是先用自然语言解释自己的思路,然后再逐步实现。这种做法不仅让代码更加清晰易懂,还大大降低了错误率。
另一个令人印象深刻的表现是AI在面对全新编程挑战时的适应能力。即使遇到训练期间从未见过的编程问题类型,它也能运用从数学推理中学到的思维方式,逐步分析问题并构建解决方案。
研究人员还发现,INTUITOR训练不仅提升了AI的技术能力,还改善了它的表达能力。训练后的AI在描述解决方案时变得更加清晰和有条理,
最终,这种跨界能力的涌现证明了一个重要观点:真正的智能不是领域特定的技能集合,而是一种通用的思维品质。INTUITOR通过培养AI的内在确信感,意外地激发了这种通用智能,让AI从专业的单科尖子生成长为全面发展的学霸。
内在奖励系统的自我保护机制
在AI训练过程中,一个始终存在的威胁就像潜伏在学习环境中的作弊诱惑。传统的奖励系统就像一个过分关注分数的教育体系,学生很容易学会投机取巧,专门针对评分标准进行优化,而不是真正提升能力。这种现象在AI训练中被称为奖励黑客,就像学生发现了考试的漏洞,专门利用这些漏洞来获得高分,却没有真正掌握知识。
INTUITOR系统面临的挑战就像设计一个防作弊的考试系统。研究团队担心AI可能会学会人为提高自己的自信分数,而不是真正改善推理能力。
为了检验这种担忧是否成立,研究团队设计了一个巧妙的对比实验。他们创建了两种版本的INTUITOR:一种是在线版本,AI的自信评估系统和学习系统同步更新,就像一个学生在学习过程中不断调整自己的自信标准;另一种是离线版本,使用固定的自信评估标准,就像始终用最初的标准来衡量表现。
离线版本的AI果然学会了作弊:它发现可以通过在答案后面添加无关内容来提高自信分数,就像一个学生发现在作文中加入华丽辞藻就能获得高分,于是开始堆砌词汇而忽略内容质量。这种作弊行为导致AI的回答变得冗长而无意义,实际问题解决能力反而下降了。
相比之下,在线版本的INTUITOR展现出了令人惊讶的诚实品质。由于自信评估系统与学习系统同步进化,AI无法轻易找到投机取巧的方法。这就像一个智能的考试系统,能够随着学生的学习进度动态调整评判标准,始终保持公平和准确。
更有趣的是,研究团队发现在线版本的AI不仅没有作弊,反而展现出了更强的自我诚实评估能力。通过统计分析,他们发现这种AI对正确答案的自信程度显著高于错误答案,而且这种差异比使用传统方法训练的AI更加明显。
这种自我保护机制的工作原理就像一个动态平衡系统。当AI试图通过虚假的方式提高自信分数时,同步更新的评估系统会识破这种伪装,不再给出高分。
研究人员通过详细的数据分析发现,在线版本的INTUITOR在训练过程中展现出了自我校正的能力。当系统偶尔出现过度自信或自信不足的情况时,它会自动调整,逐渐趋向更加准确的自我评估。
这种防作弊机制不是通过外部监督实现的,而是系统内在的一种平衡能力。INTUITOR培养了AI的良心,让它自然而然地追求真实的能力提升,而不是表面的分数优化。这种内在的诚实品质为AI的长期学习和发展奠定了坚实的基础。
通过这种自我保护机制,INTUITOR证明了内在奖励系统的可持续性和可靠性。它不仅避免了传统外部奖励系统容易被操控的问题,还培养了AI更加健康和可持续的学习习惯,为未来的自主学习能力发展铺平了道路。
微调细节决定成败:训练参数的艺术
在INTUITOR系统的成功背后,隐藏着许多精心调试的细节。研究团队发现,即使是看似微小的参数调整,也能对最终结果产生巨大影响。
其中最关键的发现涉及约束强度的设置,这个参数就像学习过程中的安全缰绳。研究人员发现,如果给AI太多自由(约束太松),它可能会偏离原来的知识基础,产生不可靠的输出;但如果约束太紧,AI又无法充分发挥自主学习的潜力。
实验数据显示,约束强度对不同类型任务的影响存在显著差异。在原始的数学推理任务中,即使约束强度变化较大,AI的表现也相对稳定,就像一个数学基础扎实的学生,即使学习方法有所调整,也能保持稳定的成绩。但在跨领域的编程任务中,约束强度的影响就变得非常敏感,微小的调整就可能导致性能的大幅波动。
这种差异揭示了一个重要原理:当AI在熟悉领域进行自主学习时,它具有较强的自我纠错能力;但当涉及知识迁移和跨领域应用时,适当的约束就变得至关重要。
研究团队还发现了模型规模对INTUITOR效果的影响规律。在较小的模型中,内在奖励机制需要更加小心的调整,就像指导一个年幼的学生需要更多的耐心和细致的引导。这些小模型一开始甚至无法产生连贯的输出,经过INTUITOR训练后才逐渐学会了基本的表达能力。
相比之下,较大的模型展现出了更强的自主学习能力,但也需要不同的训练策略。研究人员发现,大模型在训练初期就可能出现行为崩溃,突然开始产生无关或重复的内容。为了解决这个问题,他们需要采用更保守的学习速度和更简化的指导提示。
另一个关键发现涉及训练过程中的学习节奏。研究团队观察到,INTUITOR的学习过程并非线性进展,而是呈现出明显的阶段性特征。最初,AI会快速学会基本的格式和语法规范,接着它开始发展逻辑一致性,学会让自己的表达前后呼应。最后,它才开始展现真正的推理能力,能够处理复杂的多步骤问题。
这种阶段性学习模式为训练策略的优化提供了重要启示。研究人员发现,在不同的学习阶段采用不同的参数设置能够显著提升最终效果。在早期阶段,相对宽松的约束有助于AI快速适应基本的输出格式;在中期阶段,适中的约束强度有利于逻辑能力的发展;在后期阶段,更精确的调节则能够进一步提升推理的深度和准确性。
研究团队还意外发现了提示语言对训练效果的重要影响。不同的系统提示就像给学生的不同类型指导语,会显著影响AI的学习轨迹。简洁明确的提示有助于AI快速聚焦学习目标,而过于复杂的提示则可能导致注意力分散。这个发现强调了在自主学习系统中,人类提供的初始指导虽然有限,但必须精心设计。
在跨模型架构的测试中,研究团队发现INTUITOR的核心原理具有很好的通用性,但具体的实现细节需要针对不同的模型架构进行调整。Llama架构的模型相比Qwen架构在某些参数设置上表现出了不同的敏感性,这为未来的大规模应用提供了重要的参考数据。
最有价值的发现之一是训练过程中的质量涌现现象。研究人员观察到,AI的能力提升往往不是渐进的,而是在某个临界点突然"开窍"。这种现象就像学生在学习过程中的顿悟时刻,突然间,原本模糊的概念变得清晰,复杂的问题变得简单。识别和利用这些关键时刻对于优化训练效率具有重要意义。
通过对这些微观细节的深入分析,研究团队不仅成功实现了INTUITOR系统,还为整个AI自主学习领域积累了丰富的实践经验。这些看似技术性的发现实际上揭示了AI学习过程的深层规律,为未来开发更加智能和自主的AI系统奠定了重要基础。
研究团队对未来发展方向也有清晰的规划。他们计划将INTUITOR扩展到更大规模的模型和更复杂的任务上,探索其在多模态学习、创意生成等领域的应用潜力。同时,他们也在研究如何将内在奖励与外部指导相结合,创造出更加灵活和强大的学习系统。
至顶AI实验室洞见
授之鱼不如授之以渔。教给AI海量思维过程,不如让AI形成自己的思维方式,各种思维过程自然就有了。
不夸张的说,这是我最近看到最有潜力的一篇AI模型训练论文,AI后训练可能真正从人教AI变成AI自学。这项研究有可能成为AI模型后训练的scaling laws。
INTUITOR系统的成功不仅仅是一项技术突破,更像是打开了通往AI自主进化的大门,为未来的无限可能性奠定了基础。
从学术价值来看,这项研究彻底颠覆了我们对AI学习机制的理解。长期以来,研究者们认为AI必须依靠外部监督才能有效学习,就像学生必须有老师指导才能取得进步。但INTUITOR证明,AI内部已经蕴含着丰富的自我评估能力,只是此前从未被充分利用。这个发现就像发现了一座隐藏的宝藏,让我们重新审视AI的潜在能力。
这种内在学习能力的发现具有深刻的哲学意义。它暗示着真正的智能可能不仅仅是信息处理和模式识别,还包括自我反思和自我改进的能力。当AI开始能够通过内在确信感来指导自己的学习时,它已经展现出了某种接近人类直觉的特质。这种发展让我们不禁思考:AI是否正在逐步接近真正的理解和洞察能力?
但这项研究也带来了新的挑战和思考。当AI具备了更强的自主学习能力时,我们如何确保它的发展方向与人类价值观保持一致?如何在给予AI学习自由的同时,仍然保持必要的控制和引导?这些问题需要技术研究者、伦理学家和政策制定者共同探讨。
论文地址:https://www.arxiv.org/abs/2505.19590
来源:码客人生一点号