AI解数学题藏偷懒秘密:多数层打辅助，“组长”token扛下所有计算

摘要：你可能不知道，当AI在解“42+20-15”这样的数学题时，前面的计算步骤可能都是在“摸鱼”，真正的计算全靠最后一个步骤完成。

你可能不知道，当AI在解“42+20-15”这样的数学题时，前面的计算步骤可能都是在“摸鱼”，真正的计算全靠最后一个步骤完成。

最近加州大学圣克鲁兹分校、乔治・梅森大学和Datadog的研究团队，用一种新方法撬开了大语言模型的心算“黑箱”，发现了这个让人意外的秘密。

他们通过一系列实验发现，像Llama-3-8B这样的大模型在做心算时，会形成一个高效的“分工小组”，研究人员把它叫做“人人为我”（AF1）子图。

这个小组的工作模式说出来你可能不信：大部分成员前期只做准备工作，关键时刻把信息汇总给“组长”，最后由“组长”单独完成所有计算。

这个AF1子图的工作流程大致分为三个阶段，就像公司处理项目的流程一样。

模型的前14层就像开会前的部门员工，不做具体决策，只负责把基础信息整理好，它们会识别数字、理解运算符号，把题目拆解成机器能懂的格式，但不会进行实际计算。

到了第15和16层，就像部门主管把整理好的资料递交给老板，所有数字信息通过这两层集中传递给最后一个token。

这一步采用“完全窥探”模式，让最后一个token能看到所有前期信息，而其他token则进入“自我窥探”状态，只专注自己的任务。

剩下的所有层级都交给最后一个token单独处理，就像老板根据汇报做出最终决定。

它会完成所有加减运算，直接输出答案，这个发现颠覆了人们对Transformer架构的认知，原来不一定需要所有token全程参与，关键时刻集中力量办大事反而更高效。

这说明大部分注意力头其实是冗余的，真正关键的计算只靠少数“核心员工”就能完成。

研究人员用了两种关键技术才发现这个秘密，第一种是CAMA技术，作用类似会议室的隔音板，能屏蔽token之间的干扰信息，只保留基础计算能力。

这样就能精确测试出，前14层即使不交换具体信息，也能完成基础准备工作。

第二种是“基于注意力的窥视”（ABP）技术，相当于给不同token设置了信息访问权限。

这两种技术结合起来，就像给AI模型做了一次“局部麻醉手术”，通过层层剥离非必要功能，找到了完成心算任务的最小必要系统。

这种方法的创新之处在于，它不像传统研究那样盯着模型整体性能，而是像拆解钟表一样，找出了关键齿轮的联动方式。

对比传统Transformer架构，这个发现很有突破性，要知道Transformer的优势本来是让每个token都能随时访问所有信息，就像开放式办公环境里谁都能随时交流。

但研究发现，至少在心算任务中，这种“开放式办公”反而效率不高，结构化的分工协作效果更好。

有意思的是，不同模型表现出了截然不同的“解题风格”，Llama系列模型显得更“沉稳”，等待期长达14层，似乎更注重前期准备。

而Pythia和GPT-J等模型则比较“急躁”，等待期只有9-11层，信息传输层更长，显得准备不足就急于传递信息。

这种差异就像考试时的学霸和普通学生，学霸会先花时间审题整理思路，再集中精力计算，而有些学生才看几眼题目就急着动笔，中间难免反复涂改。

实验结果也印证了这一点，Llama模型的AF1子图性能边界更清晰，而其他模型虽然也能完成一半以上的准确率，但整体表现不如Llama稳定。

这说明AI的计算能力和语义理解能力是由不同模块负责的，就像一个人数学好不等于语文也好。

这个发现对AI发展的意义不小，它不仅揭开了大模型“黑箱”的一角，还指明了优化方向。

未来或许可以为不同任务设计专用的“精简子图”，让AI在保持性能的同时大幅降低计算成本。

就像手机里的专用芯片各司其职，AI模型也可以通过模块化分工变得更高效。

说到底看似高深的AI模型，在解数学题时其实在用一种很“人类”的方式工作：分工明确，关键时刻集中力量。

只不过它把这种效率做到了极致，前面层层铺垫，最后一步搞定，原来AI比我们想象的更懂得“偷懒”的艺术。

来源：笔杆先生一点号

标签：数学题组长 token af1 token扛下

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!