摘要:这项由James R. Golden在2025年5月30日发表于arXiv预印本平台(arXiv:2505.24293v1)的研究,给我们带来了一个令人惊讶的发现:那些看似无比复杂的大语言模型(LLMs),其实可以被看作是简单的线性系统。这听起来像是在说"高速
想象一下,你有一台复杂的咖啡机,上面有几十个按钮和旋钮。使用这台机器制作一杯完美的咖啡似乎需要专业知识和精确操作。但如果有人告诉你,对于特定种类的咖啡,你只需调整一个简单的滑块就能制作出相同的结果,这会不会让你感到惊讶?这正是Golden的研究向我们展示的关于大语言模型的本质。
在这项研究中,Golden展示了Llama 3、Gemma 3、Qwen 3、Phi 4、Mistral Ministral和OLMo 2等多个开源大语言模型,在不改变模型权重或输出预测的情况下,可以被转换为完全等价的线性系统。这就像是发现了一条捷径,让我们能够用简单的数学方程代替复杂的神经网络计算,而且在特定输入下得到完全相同的结果。
这一发现之所以重要,是因为它向我们揭示了大语言模型内部运作的真相。尽管这些模型在全局上表现得很复杂,能够生成令人惊叹的文本,但在局部层面——也就是处理特定输入时——它们实际上是以一种相当简单的方式运作的。这就像发现一个精通多国语言的翻译家,在翻译特定句子时其实只是在使用一个简单的对照表,而不是在进行复杂的语法和文化分析。
一、从图像扩散模型到语言模型的线性特性
Golden的研究并非凭空而来。它建立在两个重要的先前发现之上。首先是Elhage等人在2021年的研究,他们发现仅含注意力机制的网络具有解释性的"电路",能够传递语义信息。其次是Kadkhodaie等人在2023年的工作,表明强大的图像去噪扩散模型可以通过特定的架构约束变成局部线性或分段线性系统,并可以被解释为低维自适应线性滤波器。
但是,Golden进一步推进了这一思路。他指出,对于许多开源大语言模型,只要对输入序列的梯度计算进行战略性修改,就可以让这些模型在预测下一个词时表现出几乎完全的局部线性特性。这有点像是调整照相机的对焦机制——你并没有改变照相机的结构或它将要拍摄的图像,只是改变了它对焦的方式,从而得到一个更清晰的画面。
在技术层面上,这个过程涉及到"分离梯度"(detached gradient)的操作。想象一下你正在驾驶一辆汽车,汽车有加速踏板、刹车和方向盘。正常情况下,这些控制装置都会影响汽车的行为。但在Golden的方法中,相当于对于特定的驾驶路线,我们保持方向盘和刹车的位置不变,只通过调整加速踏板来控制汽车。这样,汽车的行为就变成了加速踏板的线性函数。
在大语言模型中,这种操作具体是指在计算梯度时,对非线性激活函数(如Swish、GELU等)、归一化层(RMSNorm)和注意力模块中的softmax操作进行梯度分离。这样做的结果是,模型对特定输入的响应可以表示为雅可比矩阵(Jacobian matrix)与输入向量的乘积,这是一个完全线性的操作。
二、如何将大语言模型转换为线性系统
为了理解Golden的方法,让我们考虑一个简单的例子。假设你向Llama 3.2 3B模型输入""(文本开始标记),模型预测下一个词是"The"。在正常情况下,这个预测过程涉及到数十亿参数和复杂的非线性计算。但通过Golden的方法,我们可以找到一个雅可比矩阵,当它乘以输入嵌入向量时,就会产生与原始模型完全相同的输出嵌入向量。
这个过程的关键在于如何处理模型中的非线性部分。大语言模型包含多种非线性组件,如激活函数(SwiGLU、GELU、Swish等)、归一化层和注意力机制中的softmax操作。Golden的洞察是,对于给定的输入,这些非线性操作可以被转换为线性形式,而不改变输出。
例如,对于Llama 3中的SwiGLU激活函数:SwiGLU(x) = Swish(W·x) ? (Z·x),其中Swish(x) = x sigmoid(x),?表示元素级乘法。这个函数包含非线性项sigmoid(x)。但对于特定输入x,我们可以将sigmoid(x)在x*处分离出来,使其成为一个常数。这样,SwiGLU就变成了一个关于x的线性函数:SwiGLULL(x) = [Swish(W·x)]|x=x* ? (Z·x)。
类似地,对于RMSNorm和注意力模块中的softmax操作,也可以应用相同的策略。这样,整个变换器解码器就变成了一个局部线性系统,其输出可以表示为雅可比矩阵与输入的乘积:y* = ∑ J+i(x*) · x*i,其中J+i是"分离雅可比矩阵",对应于第i个输入令牌。
三、研究结果:大语言模型是如何工作的
通过对多个开源大语言模型的实验,Golden验证了这种方法的有效性。他发现,使用分离雅可比矩阵重建的输出嵌入向量与原始模型的输出几乎完全相同,相对误差在10^-6量级(对于float32精度)和10^-3量级(对于float16精度)。这表明,大语言模型在局部上确实可以被视为线性系统。
更有趣的是,通过对分离雅可比矩阵进行奇异值分解(SVD),Golden发现这些矩阵通常是极低秩的。这意味着,尽管大语言模型有数十亿参数,但在预测下一个词时,它们实际上只使用了很少的维度。这就像一个拥有上千种香料的厨师,在烹饪特定菜肴时只用到了其中的几种。
例如,在分析Llama 3.2 3B对"The Bridge out of Marin is the"这个输入序列的响应时,Golden发现分离雅可比矩阵的主要奇异向量解码为与最可能的输出词"most"相关的概念。此外,随着解码深度的增加,模型表现出的"语义概念"逐渐变得清晰可解释。在早期层中,奇异向量的解码结果通常是无意义的,但到了后期层,会出现与"bridge"(桥)、"Golden"(金门)、"highway"(高速公路)、"exit"(出口)等相关的词汇,最终预测出"Golden"作为下一个词。
四、跨模型家族的一致性和层级分析
Golden的研究横跨了多个模型家族和不同大小的模型,从Llama 3、Gemma 3、Qwen 3到更大的模型如Llama 3.3 70B Q4。这些模型在架构和训练方式上有所不同,但它们都展示了类似的局部线性特性。
通过层级分析,Golden还揭示了大语言模型中信息处理的层次性。在处理"The bridge out of Marin is the"这个序列时,模型在早期层中主要关注通用的语言特征,而在后期层中开始出现与地理位置(如金门大桥)相关的特定概念。这就像是人类理解语言的过程:先理解单词的基本含义,然后将它们组合成更复杂的概念。
此外,Golden还分析了模型中各个组件(如注意力模块和MLP模块)的作用。他发现,这些组件也可以被表示为线性系统,并且它们在处理信息时扮演着不同的角色。例如,注意力模块可能更关注词与词之间的关系,而MLP模块则可能更关注单个词的语义。
五、分离雅可比矩阵作为概念操作
研究中的一个有趣应用是使用分离雅可比矩阵作为"概念操作"。具体来说,Golden展示了如何使用从"金门大桥"这一概念提取的分离雅可比矩阵来引导模型生成与该概念相关的文本。
例如,当给Llama 3.1 8B模型输入"I'm going to Arizona to see the"时,模型正常会生成"Grand Canyon"(大峡谷)相关的内容。但通过使用金门大桥的分离雅可比矩阵进行干预,模型生成的文本变成了与金门大桥相关的内容,如"I'm going to Arizona to see the Grand Canyon, and I'm planning to hike the Bright Golden Gate Bridge"。
这种技术为控制和引导大语言模型生成提供了一种新的方法,它不需要修改模型权重或进行额外的训练,只需要计算一次特定概念的分离雅可比矩阵。
六、研究意义与未来展望
Golden的研究为我们理解大语言模型提供了一个新的视角。尽管这些模型在全局上是高度非线性的,但在处理特定输入时,它们可以被准确地表示为线性系统。这一发现不仅有助于我们理解这些模型的内部工作机制,还可能为开发更高效、更可解释的模型提供指导。
此外,这种方法还为研究模型中的偏见、错误信息或有害内容提供了一种新的工具。通过分析分离雅可比矩阵的主要奇异向量,研究人员可以检测模型中可能存在的问题,并采取措施纠正它们。
虽然这种方法在计算上很密集,尤其是对于分析单个词预测,但Golden相信它可以扩展到更大规模的数据集和更复杂的任务。未来的研究可能会探索如何将这种方法应用于模型解释、偏见检测和安全控制等领域。
总的来说,这项研究向我们展示了,即使是最复杂的神经网络模型,也可能有一个简单的数学解释。正如爱因斯坦所说:"如果你不能简单地解释它,那么你理解得还不够深入。"Golden的工作正是朝着这个方向迈出的重要一步。
来源:至顶网一点号