AI解数学题藏偷懒秘密:多数层打辅助,“组长”token扛下所有计算

B站影视 内地电影 2025-09-15 17:12 1

摘要:你可能不知道,当AI在解“42+20-15”这样的数学题时,前面的计算步骤可能都是在“摸鱼”,真正的计算全靠最后一个步骤完成。

你可能不知道,当AI在解“42+20-15”这样的数学题时,前面的计算步骤可能都是在“摸鱼”,真正的计算全靠最后一个步骤完成。

最近加州大学圣克鲁兹分校、乔治・梅森大学和Datadog的研究团队,用一种新方法撬开了大语言模型的心算“黑箱”,发现了这个让人意外的秘密。

他们通过一系列实验发现,像Llama-3-8B这样的大模型在做心算时,会形成一个高效的“分工小组”,研究人员把它叫做“人人为我”(AF1)子图。

这个小组的工作模式说出来你可能不信:大部分成员前期只做准备工作,关键时刻把信息汇总给“组长”,最后由“组长”单独完成所有计算。

这个AF1子图的工作流程大致分为三个阶段,就像公司处理项目的流程一样。

模型的前14层就像开会前的部门员工,不做具体决策,只负责把基础信息整理好,它们会识别数字、理解运算符号,把题目拆解成机器能懂的格式,但不会进行实际计算。

到了第15和16层,就像部门主管把整理好的资料递交给老板,所有数字信息通过这两层集中传递给最后一个token。

这一步采用“完全窥探”模式,让最后一个token能看到所有前期信息,而其他token则进入“自我窥探”状态,只专注自己的任务。

剩下的所有层级都交给最后一个token单独处理,就像老板根据汇报做出最终决定。

它会完成所有加减运算,直接输出答案,这个发现颠覆了人们对Transformer架构的认知,原来不一定需要所有token全程参与,关键时刻集中力量办大事反而更高效。

这说明大部分注意力头其实是冗余的,真正关键的计算只靠少数“核心员工”就能完成。

研究人员用了两种关键技术才发现这个秘密,第一种是CAMA技术,作用类似会议室的隔音板,能屏蔽token之间的干扰信息,只保留基础计算能力。

这样就能精确测试出,前14层即使不交换具体信息,也能完成基础准备工作。

第二种是“基于注意力的窥视”(ABP)技术,相当于给不同token设置了信息访问权限。

这两种技术结合起来,就像给AI模型做了一次“局部麻醉手术”,通过层层剥离非必要功能,找到了完成心算任务的最小必要系统。

这种方法的创新之处在于,它不像传统研究那样盯着模型整体性能,而是像拆解钟表一样,找出了关键齿轮的联动方式。

对比传统Transformer架构,这个发现很有突破性,要知道Transformer的优势本来是让每个token都能随时访问所有信息,就像开放式办公环境里谁都能随时交流。

但研究发现,至少在心算任务中,这种“开放式办公”反而效率不高,结构化的分工协作效果更好。

有意思的是,不同模型表现出了截然不同的“解题风格”,Llama系列模型显得更“沉稳”,等待期长达14层,似乎更注重前期准备。

而Pythia和GPT-J等模型则比较“急躁”,等待期只有9-11层,信息传输层更长,显得准备不足就急于传递信息。

这种差异就像考试时的学霸和普通学生,学霸会先花时间审题整理思路,再集中精力计算,而有些学生才看几眼题目就急着动笔,中间难免反复涂改。

实验结果也印证了这一点,Llama模型的AF1子图性能边界更清晰,而其他模型虽然也能完成一半以上的准确率,但整体表现不如Llama稳定。

这说明AI的计算能力和语义理解能力是由不同模块负责的,就像一个人数学好不等于语文也好。

这个发现对AI发展的意义不小,它不仅揭开了大模型“黑箱”的一角,还指明了优化方向。

未来或许可以为不同任务设计专用的“精简子图”,让AI在保持性能的同时大幅降低计算成本。

就像手机里的专用芯片各司其职,AI模型也可以通过模块化分工变得更高效。

说到底看似高深的AI模型,在解数学题时其实在用一种很“人类”的方式工作:分工明确,关键时刻集中力量。

只不过它把这种效率做到了极致,前面层层铺垫,最后一步搞定,原来AI比我们想象的更懂得“偷懒”的艺术。

来源:笔杆先生一点号

相关推荐