大模型算术能力被揭秘,核心只靠最后一环节,AI推理过程遭质疑

B站影视 内地电影 2025-09-15 17:44 1

摘要:AI大模型的数学能力是怎么实现的?最新研究给出了一份让人意外的答案。美国加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队联合发布实验结果,揭开了大语言模型(如Llama-3-8B)在心算任务中的“黑箱”:原来,几乎所有实际的数学运算都集中在序列最

AI大模型的数学能力是怎么实现的?最新研究给出了一份让人意外的答案。美国加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队联合发布实验结果,揭开了大语言模型(如Llama-3-8B)在心算任务中的“黑箱”:原来,几乎所有实际的数学运算都集中在序列最后一个token上完成,前面的token只是“打辅助”,大量计算并未像传统认知那样在各层、各token间平均分担。这一发现无疑为AI算术推理能力的机制带来了新的争议与思考。

在不少AI爱好者心中,大语言模型之所以能解数学题,靠的是Transformer架构的全局信息访问。也就是说,每个token都能通过自注意力机制获取全部上文信息,层层传递,逐步加工。但研究团队用上下文感知平均消融(CAMA)和基于注意力的窥视(ABP)等新方法,对Llama-3-8B等模型进行了系统实验,结果出人意料。

他们发现,在心算任务——比如42+20、15×3这类问题,模型只需在前14层做“通用准备”,接着2层进行信息传递,最后几层所有计算都集中到最后一个token上完成。这个“稀疏子图”被命名为AF1(All-for-One)。

简单来说,模型前面的token像是在“打杂”,只负责数字识别、结构编码等准备性工作,真正算账的,只有最后那个token。这种设计与人类分步计算的方式完全不同,也和传统AI模型中“每步都算点什么”的想法形成鲜明对比。

或许有人会问,这种机制下模型的准确率会不会大幅下降?研究组用Llama-3-8B、Llama-3.1-8B、Pythia和GPT-J等多款模型进行了验证。实验表明,在A+B+C这种三数心算任务中,AF1_llama子图几乎不影响模型表现,准确率依然高达原始模型的95%。

更令人震惊的是,哪怕移除Llama-3-8B中将近60个注意力头,模型准确率依然坚挺,算术能力只依赖极少数核心注意力头——绝大多数注意力头其实“划水”,并不参与实际运算。

模型的“等待期”L_wait和“信息传递层”L_transfer也存在模型差异。以Llama-3-8B为例,前14层为等待期(仅做通用操作),第15、16层完成信息传递,剩余层只剩最后token自计算。

Pythia和GPT-J模型的等待期更短、信息传递层更长,但整体的“最后计算”模式仍然成立。这说明,AI模型并非像外界想象那样每一步都在努力“思考”,真正的算术关键环节集中度极高。

这一发现带来了不小的争议。有人质疑,既然大模型可以只靠最后一个token完成核心计算,是不是Transformer的全局信息访问反而被高估了?从另一个角度看,AF1机制可能只适用于某些特定类型的任务,比如直接算术运算,对于需要复杂推理、多步思考的应用题、代码输入等情况,模型表现则明显下滑。

实验也验证了这一点。AF1_llama在不包含额外语义上下文的直接算术任务中依然靠谱,但一旦进入应用题或Python代码,准确率便大打折扣

模型在理解自然语言或代码意图时,单靠最后一个token的“猛攻”远远不够。这是否意味着AI模型的通用推理能力仍然有明显短板?或许只能说,算术推理的“捷径”并不适用于所有任务场景。

不少业内专家认为,这项研究为理解大语言模型内部机制提供了新窗口。过去,AI模型被视为“黑箱”,信息流动和计算细节几乎无法追踪。通过CAMA和ABP等创新方法,研究团队成功揭示了模型内部的稀疏子图和任务分工,让“黑箱”变得透明了许多。

但也有观点认为,这种极端算术依赖最后token的方式,可能只是“任务过于简单”导致的特例。对复杂推理、多维度分析、跨领域任务来说,模型是否依然会“偷懒”,还需更大规模、更多样化的实验去验证。毕竟,现实世界的任务远比数学心算复杂得多。

来源:素年文史

相关推荐