摘要:就在几个小时前,OpenAI发布了一篇重磅的最新研究,构建了一个实验性的大语言模型,并且提出稀疏训练+剪枝+桥接的新方法,让原本黑箱的LLM内部机制可视化了。
就在几个小时前,OpenAI发布了一篇重磅的最新研究,构建了一个实验性的大语言模型,并且提出稀疏训练+剪枝+桥接的新方法,让原本黑箱的LLM内部机制可视化了。
大家都知道,如今GPT、Claude等LLM越来越强大,写文章、生成代码、做推理,样样不在话下。但是,模型内部是如何“思考”的?这一直是一个黑箱问题。
打个比方,传统神经网络的工作方式就像一堆纠缠在一起的电线:每个神经元与成千上万个神经元相连,信号在其中不断流动、叠加。这些连接虽然能让模型学习复杂模式,但也形成了人类难以解读的、高度密集的连接网络。
解释 Transformer 的一个主要难点在于:其激活与权重并不直接可理解。例如,神经元会以难以预测的方式激活,这些激活模式往往并不对应于人类可理解的概念。
而OpenAI的最新研究,通过对语言模型进行极度稀疏权重训练,“解开”了模型内部的机制。他们构建了一个权重稀疏的 Transformer模型,比 GPT-5、Claude 或 Gemini等主流模型要小得多。论文第一作者Leo Gao表示,它的性能大致相当于2018年的GPT-1。
相对于常规模型来说,更透明的模型有助于揭示语言模型为何会出现幻觉、行为不可预测,或在关键情况下做出不可靠的判断。
论文相关代码已公开:https://github.com/openai/circuit_sparsity/
OpenAI提出对Transformer模型进行“稀疏训练”方法,其核心思路在于:绝大多数权重设为零,让每个神经元只连接少数节点,这样网络内部的信号不再在成千上万个节点之间纠缠,而是沿着少量路径传递。
他们首先在标准 Transformer 架构( GPT‑2 风格)上训练模型,并强制绝大多数权重为 0(L0 范数很小),让每个神经元只连接少数其他神经元。
为了验证稀疏训练的效果,研究者设计了一些简单任务,让模型完成特定操作,例如:
Python引号闭合任务:输入 "hello,模型要输出匹配的引号 "hello";为了评估模型的可解释性,研究者使用一种新型剪枝(Pruning)方法,以隔离关键电路:对每个任务,删除模型中非必要的神经元/通道/权重,只保留完成任务所必需的最小子网络。剪枝方法会通过“均值屏蔽”(mean-ablating)冻结被删除节点的激活,保证任务行为仍然由剩下的电路完成。
结果发现,每个任务对应一个最小电路(Minimal Circuit),只包含少量神经元和注意力通道,足以完成任务:
剪掉电路之外的神经元,模型就会失败;只保留这些神经元,模型就能正常完成任务。这意味着,这些电路不仅可用,而且必要且充分——正是模型执行任务的核心“机制”。
举个例子,闭合引号任务的电路只用到两个MLP神经元和一个注意力头,就能判断字符串是单引号还是双引号,然后正确闭合。
此外,研究者还发现电路越小、越独立,模型行为就越可解释。
他们比较了一个稀疏模型和一个在预训练损失相同的稠密模型。通过调节目标损失,测量每个模型在完成该损失时所需的最小电路规模,并对任务进行平均。结果显示,在任意给定损失下,稀疏模型的电路大约比稠密模型小16倍。
稀疏训练还有一个亮点:可调控性。
增加稀疏度:权重越少,电路越小,模型越可解释,但能力略有下降。扩大模型规模:在保持稀疏度的情况下,增加神经元数量,可以同时提升能力和可解释性。研究者将这个关系绘制成“帕累托前沿”,显示能力与可解释性的权衡。在总参数量固定的情况下,提高模型稀疏度(即减小权重的L0 范数)会在能力和可解释性之间产生权衡:能力下降,但可解释性提升。
稀疏模型虽然易解释,但训练成本高,难以直接替代像GPT-3这样的前沿大模型。为了解决这个问题,研究者又提出了桥接方法(Bridges)。通过桥接,把稀疏模型与已有密集模型关联,实现对已有模型行为的可解释性分析。
“桥接”就是一系列线性映射,用于在稀疏模型和稠密模型的表示之间转换——从而确保通过稀疏层与稠密层混合的所有路径在预训练任务上仍能保持良好性能。
在论文最后,研究者提到,稀疏训练非常有前景,但仍有不少挑战:
效率低:稀疏模型训练和推理开销是同等能力稠密模型的100–1000倍;多语义特征:一些神经元仍同时参与多个任务,完全单语义化还需要改进;规模挑战:解释复杂任务或更大模型时,电路会非常庞大,需要自动化可解释性方法辅助。论文第一作者Leo Gao也表示:
“我们还没有完全解决可解释性问题,仍有很大的改进空间,许多电路仍然比较复杂。但我们仍然能学到很多——例如,在检查闭合嵌套列表的电路时,我们发现了一种对模型的对抗攻击,这是我们原本不会想到的。”
Image
对于未来的研究方向,研究团队表示,他们对扩展这一技术感到非常兴奋。
“虽然不太可能将其扩展到最前沿的规模,但一个令人激动的目标是训练出一个完全可解释的 GPT-3。这样的‘模型生物体’将教会我们关于 AI 工作原理的重要经验,这些经验可能会迁移到最前沿的模型上。”
可以预见,可解释性将是未来大模型发展的关键方向。在不远的将来,我们有望真正理解“AI是怎么思考的”,而不是仅仅看它的输出。
参考链接:
来源:51CTO