大模型算术能力被揭秘，核心只靠最后一环节，AI推理过程遭质疑

摘要：AI大模型的数学能力是怎么实现的？最新研究给出了一份让人意外的答案。美国加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队联合发布实验结果，揭开了大语言模型（如Llama-3-8B）在心算任务中的“黑箱”：原来，几乎所有实际的数学运算都集中在序列最

AI大模型的数学能力是怎么实现的？最新研究给出了一份让人意外的答案。美国加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队联合发布实验结果，揭开了大语言模型（如Llama-3-8B）在心算任务中的“黑箱”：原来，几乎所有实际的数学运算都集中在序列最后一个token上完成，前面的token只是“打辅助”，大量计算并未像传统认知那样在各层、各token间平均分担。这一发现无疑为AI算术推理能力的机制带来了新的争议与思考。

在不少AI爱好者心中，大语言模型之所以能解数学题，靠的是Transformer架构的全局信息访问。也就是说，每个token都能通过自注意力机制获取全部上文信息，层层传递，逐步加工。但研究团队用上下文感知平均消融（CAMA）和基于注意力的窥视（ABP）等新方法，对Llama-3-8B等模型进行了系统实验，结果出人意料。

他们发现，在心算任务——比如42+20、15×3这类问题，模型只需在前14层做“通用准备”，接着2层进行信息传递，最后几层所有计算都集中到最后一个token上完成。这个“稀疏子图”被命名为AF1（All-for-One）。

简单来说，模型前面的token像是在“打杂”，只负责数字识别、结构编码等准备性工作，真正算账的，只有最后那个token。这种设计与人类分步计算的方式完全不同，也和传统AI模型中“每步都算点什么”的想法形成鲜明对比。

或许有人会问，这种机制下模型的准确率会不会大幅下降？研究组用Llama-3-8B、Llama-3.1-8B、Pythia和GPT-J等多款模型进行了验证。实验表明，在A+B+C这种三数心算任务中，AF1_llama子图几乎不影响模型表现，准确率依然高达原始模型的95%。

更令人震惊的是，哪怕移除Llama-3-8B中将近60个注意力头，模型准确率依然坚挺，算术能力只依赖极少数核心注意力头——绝大多数注意力头其实“划水”，并不参与实际运算。

模型的“等待期”L_wait和“信息传递层”L_transfer也存在模型差异。以Llama-3-8B为例，前14层为等待期（仅做通用操作），第15、16层完成信息传递，剩余层只剩最后token自计算。

Pythia和GPT-J模型的等待期更短、信息传递层更长，但整体的“最后计算”模式仍然成立。这说明，AI模型并非像外界想象那样每一步都在努力“思考”，真正的算术关键环节集中度极高。

这一发现带来了不小的争议。有人质疑，既然大模型可以只靠最后一个token完成核心计算，是不是Transformer的全局信息访问反而被高估了？从另一个角度看，AF1机制可能只适用于某些特定类型的任务，比如直接算术运算，对于需要复杂推理、多步思考的应用题、代码输入等情况，模型表现则明显下滑。

实验也验证了这一点。AF1_llama在不包含额外语义上下文的直接算术任务中依然靠谱，但一旦进入应用题或Python代码，准确率便大打折扣。

模型在理解自然语言或代码意图时，单靠最后一个token的“猛攻”远远不够。这是否意味着AI模型的通用推理能力仍然有明显短板？或许只能说，算术推理的“捷径”并不适用于所有任务场景。

不少业内专家认为，这项研究为理解大语言模型内部机制提供了新窗口。过去，AI模型被视为“黑箱”，信息流动和计算细节几乎无法追踪。通过CAMA和ABP等创新方法，研究团队成功揭示了模型内部的稀疏子图和任务分工，让“黑箱”变得透明了许多。

但也有观点认为，这种极端算术依赖最后token的方式，可能只是“任务过于简单”导致的特例。对复杂推理、多维度分析、跨领域任务来说，模型是否依然会“偷懒”，还需更大规模、更多样化的实验去验证。毕竟，现实世界的任务远比数学心算复杂得多。

来源：素年文史

标签：模型推理 token abp 算术

本文地址：http://news.43b.com.cn/a/1158408.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐