MIT让大模型像人类学习一样将新知识内化到模型权重中

摘要：大语言模型的核心机制是静态的，像一本印刷完成后就无法修改的百科全书。它们无法根据新出现的任务，知识或范例来主动调整自身的权重参数。

麻省理工学院（MIT）的研究者们，教会了大语言模型如何学习新知识。

大语言模型的核心机制是静态的，像一本印刷完成后就无法修改的百科全书。它们无法根据新出现的任务，知识或范例来主动调整自身的权重参数。

MIT的研究员们引入了自适应大型语言模型（SEAL）的框架，它赋予了大型语言模型一项前所未有的能力：通过生成自己的微调数据和更新指令，实现真正意义上的自我适应。

当模型遇到一个新的输入时，它会主动生成一种自我编辑（self-edit）。

这种编辑形式多样，可能是在重组信息，可能是指定优化的超参数，甚至可能是调用外部工具来增强数据，最终通过基于梯度的更新，将新知识固化到模型权重中。

这种自我编辑并非凭空产生。而是通过一个强化学习循环来训练模型，使其学会生成最有效的自我编辑。

这个循环的核心思想很简单：如果一次自我编辑能够提升模型在下游任务中的性能，那么生成这种编辑的行为就会得到奖励和强化。

与以往那些依赖独立适应模块或辅助网络的方法不同，SEAL框架让模型直接利用自身的生成能力来参数化并控制其适应过程。

在知识整合与少样本泛化两个关键领域的实验证明，SEAL是迈向能够响应新数据并进行自我导向适应的语言模型的重要一步。

让模型为自己划重点

人类学生在准备一场机器学习考试时，很少会直接背诵讲座的原始录音或教科书的原文。

他们会做笔记。这些笔记是对原始信息的吸收，重写与重组，是一种将外部知识转化为更易于理解和记忆形式的过程。

这种学习方式的效率远高于单纯的死记硬背。

更重要的是，每个人的笔记风格都不同。

有人喜欢将知识浓缩成视觉图表，有人偏爱文字性的总结，还有人可能更依赖具体的数学公式。每个人都在寻找最适合自己的信息吸收方式。

这种为了学习而进行的数据吸收与重写过程，与当前大型语言模型的训练和部署方式形成了鲜明对比。

当面对新任务时，现有的大型语言模型要么通过微调，要么通过上下文学习（in-context learning）来直接消费任务数据。

问题在于，这些原始数据未必是最佳的学习材料。

现有方法也无法让模型发展出一套定制化的策略，来主动转换和学习它的训练数据，找到最适合自己的笔记方式。

为了让语言模型更好地适应新环境，研究员提出了一个核心构想：赋予大型语言模型根据新输入生成自身训练数据和微调指令的能力。

他们为此设计了一种强化学习算法，专门训练模型生成一种名为自我编辑（self-edits）的自然语言指令。

这些指令详细规定了用于更新模型权重的数据，以及可选的优化超参数。具备这种能力的模型，被称为自适应大型语言模型（Self-Adapting LLMs，SEAL）。

模型如何学会自我编辑

SEAL框架的核心可以被理解为一个嵌套的双循环算法。

外层是一个强化学习（RL）循环，负责优化自我编辑的生成策略；内层是一个更新循环，负责使用外层生成的自我编辑，通过梯度下降来更新模型。

这套机制本质上是元学习（meta-learning）的一种体现，即学习如何学习。

模型不是在学习具体的知识，而是在学习如何更有效地生成那些能帮助自己学习的自我编辑。

举个例子，在知识整合任务中，C 可能是一段希望模型记住的文字，而 τ 则是关于这段文字的一组问答。

接收到上下文 C 后，模型会生成一个自我编辑 SE。这个 SE 的具体形式会根据任务领域的不同而变化。随后，模型会通过监督微调（SFT）来更新自己的参数：θ′ ← SFT(θ, SE)。

整个过程的关键在于如何优化自我编辑的生成。

研究者使用了强化学习。模型采取一个行动（生成 SE），然后根据更新后的模型 LMθ′ 在任务 τ 上的表现获得一个奖励 r，最后模型会更新其策略，以期在未来获得最大的预期奖励。

他们采用了一种在线策略（on-policy）方法。自我编辑总是从当前模型中采样，并且奖励也是使用当前模型来计算。

在线策略算法选择的ReSTEM。

ReSTEM 的工作方式可以看作是一个期望最大化（EM）过程。在 E 步，它从当前模型的策略中采样一批候选的自我编辑。在 M 步，它只对那些获得了正向奖励（即，提升了模型性能）的自我编辑样本进行监督微调。

这种只学习好的样本的策略，实际上是在优化一个近似目标。

如果使用某个自我编辑进行适应后，模型在任务 τ 上的性能提升了，奖励就为 1，否则为 0。

ReSTEM 这种对好的自我编辑进行监督微调的操作，正是在这种二元奖励下对强化学习目标的有效优化。

SEAL 在两大场景的实战

我将 SEAL 框架在两个截然不同的领域进行了实例化：知识整合与少样本学习。选择这两个领域是为了展示模型适应能力的两种互补形式。

一种是将新信息融入模型权重，使其在没有上下文的情况下也能被回忆起来。

另一种是在只看到极少数示例后，就能泛化到新任务的能力。

知识整合，任务是微调模型，内化给定段落中的新事实信息，使其能够在不接触原始语境的情况下回答相关问题。

这个机制训练模型以一种最高效的方式来重组段落信息，使其最易于通过微调被吸收。

在少样本学习任务中，使用了抽象和推理语料库（ARC），这是一个专门测试从极有限示例中进行抽象推理和泛化能力的基准。

ARC 上的少样本学习，模型必须通过生成自身的数据增强和训练配置来推广，以解决抽象推理任务。

每个 ARC 任务包含一小组输入输出的演示，以及一个需要预测其正确输出的测试输入。

研究员定义了一套工具集，每个工具都是一个预定义的函数，用于转换数据或指定训练参数。这些工具包括：

数据增强：旋转，翻转，反射，转置，调整大小等操作，以及将这些转换链式或重复应用。优化参数：学习率，训练轮数，以及损失函数是计算所有标记还是只计算输出标记。

模型会被给予任务的少样本演示作为提示，然后生成一个自我编辑。在这个场景下，自我编辑就是一份详细的说明书，指定了调用哪些工具以及如何配置它们。

这份说明书随后被执行，通过 LoRA 微调来适应模型。

SEAL的效果如何

在少样本学习的实验中，使用了一个相对较小的开源模型 Llama-3.2-1B-Instruct。

由于 ARC 任务对未经过专门预训练的模型极具挑战性，筛选出了一部分在最佳 TTT（测试时训练）配置下可解的任务用于实验。

模型使用 ReSTEM 算法进行训练。在训练过程中，为每个任务采样 15 个自我编辑，并独立应用它们，生成 15 个更新后的模型。然后，只对那些能够让模型在测试中得出正确答案的自我编辑进行强化。

训练完成后，通过为每个评估任务生成 5 个自我编辑来测试模型，并报告能够引导模型走向正确输出的自我编辑所占的百分比，即成功率。

对比了三种基线方法：

ICL（上下文学习）：直接将少样本示例作为提示，让模型预测测试输入的输出。TTT + 自我编辑（无先验RL）：模型同样生成自我编辑并进行测试时训练，但没有经过强化学习的优化。Oracle TTT：使用人工制作的最佳 TTT 配置，这代表了方法的性能上限。

SEAL 显著提升了适应的成功率，从未使用 RL 训练的 20% 提升到了 72.5%，而纯粹的上下文学习成功率为 0。

尽管距离人工设定的上限还有差距，但这证明了通过强化学习让模型自主学习如何适应是完全可行的。

在知识整合的实验中，使用了 Qwen2.5-7B 模型，任务是整合来自 SQuAD 数据集段落的新事实。

对比了四种基线方法：

基础模型：未经任何适应的模型。仅在段落上训练：直接在原始段落上进行微调。在段落+合成数据上训练：在原始段落和未经 RL 优化的自我生成含义上进行微调。在段落+GPT-4.1合成数据上训练：在原始段落和由更强大的 GPT-4.1 模型生成的含义上进行微调。

在两种模式下报告了模型的无上下文 SQuAD 准确率：单段落更新（使用 LoRA）和持续预训练（使用全量微调）。

结果如表所示。在单段落更新的设置中，直接在段落上微调带来的增益微乎其微。使用基础模型自己生成的合成数据可以将准确率提升 6.2 个百分点。而使用强大的 GPT-4.1 生成的合成数据，准确率提高了 12.8 个百分点。

经过强化学习训练后，SEAL 的性能达到了 47.0%，甚至超越了使用 GPT-4.1 生成的合成数据，尽管它是一个小得多的模型。

在持续预训练（CPT）的设置中，模型需要一次性吸收来自多个段落的信息。SEAL 的强大表现证明，它学到的自我编辑策略能够泛化到原始的强化学习设置之外。

仅仅经过两次 ReSTEM 迭代，SEAL 的性能就超过了 GPT-4.1 数据。后续迭代带来的回报递减，表明策略已经快速收敛。

定性分显示，强化学习引导模型生成了一种将段落提炼为易于学习的原子事实的编辑风格。

挑战与未来的星辰大海

让语言模型能够自我编辑，其最终目标之一是实现持续学习，让模型能够随着时间的推移不断整合新信息。

这直接触及了灾难性遗忘的挑战，即新的学习会破坏性地干扰过去的知识。

在当前的训练设置中没有明确地去优化知识保留。

为了测试 SEAL 在这方面的表现，研究模拟了一个持续学习的场景。

模型会依次接收一系列段落，每次都触发一次自我编辑和更新。每次更新后，在所有先前见过的任务上重新评估模型，以衡量知识的保留情况。

如图所示，随着编辑次数的增加，模型在早期任务上的性能逐渐下降。

这表明 SEAL 仍然容易受到灾难性遗忘的影响。

尽管如此，它可以在不完全崩溃的情况下执行多次更新，这为未来的改进留下了空间。

另一个挑战是计算开销。

SEAL 的奖励计算循环比其他用于大型语言模型的强化学习循环成本要高得多。计算一次奖励需要对整个模型进行微调和评估，这引入了巨大的开销。

此外，当前的实现假设每个上下文都与一个明确的下游任务配对，这简化了奖励计算，但也限制了其在无标签语料库上的应用。

一个潜在的解决方案是，让模型不仅生成自我编辑，还生成自己的评估问题，从而实现自我监督。

前沿的大型语言模型将会在所有公开可用的人类生成文本上完成训练。

这堵即将到来的数据墙，将使得合成数据增强成为必需。

一旦网络规模的语料库被耗尽，模型的进步将取决于其生成自身高效训练信号的能力。

想象一个未来，大型语言模型能够摄取一篇新的学术论文，并利用其现有知识和推理能力，为自己生成大量的解释和含义。

这种自我表达和自我完善的迭代循环，可以让模型在缺乏外部监督的情况下，也能在罕见或代表性不足的主题上持续进步。

现代的推理模型通常通过强化学习来生成思维链（CoT）轨迹，而 SEAL 可以提供一种互补的机制，允许模型学习何时以及如何更新自己的权重。

这两种方法可以协同工作：模型可以在推理过程中执行权重更新以指导当前轨迹，也可以在推理完成后将关键见解内化到参数中，从而改进未来的推理。

这种持续的完善循环对于构建智能体也极具前景。

智能体模型必须在与环境的长期交互中增量地获取和保留知识。

SEAL 通过支持结构化的自我修改来支持这种行为：在一次交互后，智能体可以合成一个触发权重更新的自我编辑，使其行为与先前的经验对齐，减少对重复监督的依赖。

SEAL 框架证明，大型语言模型在预训练后不必保持静态。

通过学习生成自己的合成自我编辑数据，并通过轻量级权重更新来应用它，它们可以自主地整合新知识，适应新任务。

参考资料：

来源：算泥社区

标签：模型学习 mit arc seal

本文地址：http://news.43b.com.cn/a/1834490.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

让模型为自己划重点

模型如何学会自我编辑

SEAL 在两大场景的实战

SEAL的效果如何

挑战与未来的星辰大海

相关推荐