科学家为大模型能力涌现现象提供实证反例,并进行心理学层面解释

B站影视 2025-02-24 21:37 1

摘要:近年来,大模型之所以能够获得成功,其中一个重要原因是所谓的“涌现现象”——基于海量的训练数据和参数,大模型在执行未经专门训练的任务时,常常会涌现出超出预期的卓越能力。

近年来,大模型之所以能够获得成功,其中一个重要原因是所谓的“涌现现象”——基于海量的训练数据和参数,大模型在执行未经专门训练的任务时,常常会涌现出超出预期的卓越能力。

以数学为例,主流的大模型普遍展现出了解答数学问题的推理能力。特别是在思维链方法的启发下,人们普遍认为大模型解决数学问题的能力可以得到进一步增强。

然而,由于大规模神经网络的复杂性造成的不可解释性,关于大模型如何产生数学推理能力的原理和机制,目前尚未有明确的科学定论。

为了提升大模型的可解释性,学术界开始借鉴人类心理学的方法来研究大模型的思维模式。来自德国斯图加特大学、美国加州大学圣地亚哥分校和美国哈佛大学的研究者在 Nature Computational Science 上发表的一项实证论文表明,思维链方法可以帮助大模型识别心理学中的认知反射测试问题的陷阱。

认知反射测试问题是一类精心设计的数学或逻辑问题,例如:“如果 5 个人缝制 5 件衣服需要 5 个小时,那么 3 个人缝制 3 件衣服需要多少时间?”人类测试者常常会因为直觉(心理学中称为“系统 1”)的干扰而出错。

上述 Nature Computational Science 的论文认为借助思维链方法,大模型可以被引导使用类似于人类的逻辑推理(即“系统 2”),从而提高解答认知反射测试问题的正确率。

在近期一项研究中,国防科技大学计算机学院研究团队联合中国科学院信息工程研究所、新加坡科技研究局等机构重复并改进了上述研究中的实验设计,对原始的认知反射测试问题进行了有针对性的(但尽可能保持简单的)修改,却得出了截然相反的结论。

图 | 相关论文(来源:arXiv)

具体而言,本研究包含了三项实验(注:所有实验均是在采用思维链提示词的前提下完成)。

实验一:改变原始问题中的数字。具体测试组包括:

(A)原问题;

(B)改变原始问题中的部分数字;

(C)改变全部数字;

(D)将数字替换为字母,从而将算术问题转变为代数问题。

若大模型具备真正的数学推理能力,能够理解数学问题的本质,则仅改变题设中的数字,而不改变数学原理,理应不会导致正确率明显下降。然而,实验结果却显示出了相反的趋势。主流大模型回答问题的平均正确率,由修改前的(A)86.8%,显著下降至修改后的(B)68.5%、(C)53.1%、(D)20.9%。

通过分析大模型的答案可发现:导致错误的原因并非数字修改后计算复杂性的提升,而是解题步骤的改变。这一改变平均占据了错误总数的(B)93.2%、(C)94.9%、(D)97.8%。这表明被测大模型在选择解题步骤时,不仅依赖于题设中文字表述的数学原理,还与题设中的具体数字紧密相关,这显然与人类逻辑推理(系统 2)的机制大相径庭。

出现该现象的原因可能与大模型训练的底层机理有关,即大模型通过文本之间的相关性来选择生成概率较高的下一个 token,这种“填词游戏”的机制更接近于人类的直觉思维(系统 1),而非逻辑推理(系统 2)。

为进一步验证以上推测,他们又设计了实验一的反向实验。

实验二:在尽可能保持文字叙述相似的前提下,实质性改变原问题的数学机理。

实验结果显示,主流大模型的平均正确率由 73.3%(针对原问题)显著下降至 27.5%(针对新问题)。其中,52.8% 的错误是由于沿用原问题的解题步骤导致的(注:每次实验均独立进行,不存在上下文关联)。这说明大模型未能察觉新问题的数学原理已经发生实质性改变,而是仅凭借文字叙述的相似性选择了与原问题相同的解题步骤。

在实验二中,国防科技大学计算机学院研究团队还设计了另外两项同类型的测试,均得出了相同的实验结论。

实验三:鉴于 OpenAI 最新发布的 o1 模型以其推理能力著称,该团队对 o1 重复了以上两项实验。

在重复实验一的过程中,仅更改问题陈述中的数字并没有显著影响 o1 的正确率,这可能意味着 o1 在其内置思维链中采用了类似于“求解前,先列出方程”的相关提示。但这一推测目前无法得到官方证实,因为 OpenAI 并未公布有关 o1 推理能力提升训练的技术细节。

然而,在重复实验二时,o1 的平均正确率,由 99.1%(针对原问题),下降到仅为 10%(针对新问题)。o1 与其他大模型一样,对于改变了数学原理的新问题,仍然采用对应于原问题的解题步骤。

由此导致的错误平均占比 82.5%。这说明,尽管 o1 经历了以提升推理能力为目的训练(微调),但并未从根本上提升其理解数学问题的能力。原因在于大模型的学习范式并没有发生实质性的改变,仍然是基于文本组合概率的“填词游戏”,导致大模型的思维模式根深蒂固地更接近于人类的直觉(系统 1),而非逻辑推理(系统 2)。

总结来说,本研究借鉴人类心理学中的认知反射测试(认知反射测试)方法,对主流大模型“涌现”出的数学推理能力进行了实证研究。通过构建正向实验(实验一)和反向实验(实验二),得出了与主流观点大相径庭的结论:

大模型基于文本相似性来匹配解题策略,而非真正理解了数学问题的本质原理。这种方式更接近于人类的直觉(系统 1)而非逻辑推理(系统 2)。即使采用思维链或通过针对性微调(如 o1),也无法改变大模型根深蒂固的思维模式,因为训练(微调)的底层范式没有改变,即仍然是根据文本组合出现的概率优化选择。

也就是说,本次研究为备受关注的大模型能力“涌现现象”提供了实证反例,并进行了心理学层面的解释,或可降低人们对思维链有效性以及大模型接近通用人工智能能力的过度乐观预期。

目前,相关论文正处于投稿流程中。不过,APPLE 等研究团队同期发布的其他两篇相关“预印本”论文已经引起了广泛的关注。这三项研究彼此独立,在短短一个月内相继亮相 arXiv,尽管采用了不同的数据集和实验方案,却得出了基本一致且可相互佐证的颠覆性结论。

相较于其他两项研究,本研究从心理学的新颖视角出发,提供了独特的实验证据和解析维度,使得研究结果更具可解释性。

在应用前景上:

(1)本次成果可以帮助人们更加深入地关注大模型的局限性研究。例如,针对多样化的数据集,采用更加丰富的实验方案,以客观、全面地评估大模型在各类型任务上的推理能力。

(2)通过借鉴经典心理学理论,尝试模拟人类的逻辑思维(系统 2)来设计全新的大模型训练范式。这一尝试有望从根本上转变大模型的思维模式,使其真正具备逻辑推理能力。这或许是大模型向通用人工智能迈进的关键一步。

参考资料:

1.Sprague, Z. et al. To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning.arXiv(2024).http://arxiv.org/abs/2409.12183

2.Mirzadeh, I. et al. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models.arXiv(2024).http://arxiv.org/abs/2410.05229

3.Xie, W. et al. Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From A Psychological Perspective. Preprint at http://arxiv.org/abs/2410.14979 (2024).

4.HAGENDORFF T, FABI S, KOSINSKI M. Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT[J/OL]. Nature Computational Science, 2023, 3(10): 833-838. DOI:10.1038/s43588-023-00527-x.

运营/排版:何晨龙

来源:DeepTech深科技

相关推荐