0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级

B站影视 内地电影 2025-10-15 14:59 1

摘要:克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型终于学会更新自己了!MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。该框架名为SEAL(S

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型终于学会更新自己了!MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。模型自动学习知识更新策略SEAL在论文中通过两个主要实验任务验证其效果,分别是知识注入(knowledge incorporation)和小样本学习(few-shot learning)。这两类任务分别对应模型进化中的两种基本情境——记住新知识,以及快速适应新任务。知识注入在知识注入实验中,研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。每轮训练开始时,模型接收到一个新的段落作为输入上下文,但不会看到与之配套的问题答案。模型首先根据这段输入生成训练数据,然后使用LoRA进行一次小规模微调,该过程仅基于生成后的数据,不包括原始段落或问题。微调完成后,模型会在下游任务上接受评估,需要在没有原始段落作为输入的情况下,回答多个与该段落相关的问题。其关键思路不是直接对reward进行梯度回传,而是采取一种行为克隆+过滤采样的方式。具体来说,在每个上下文中,模型会生成多个self-edit候选,每个候选会被分别应用,执行一次微调,得到一个新模型。然后会对新模型在任务上的表现进行评估,只有带来性能提升的self-edit才会被保留。接着用这批“有效”的self-edit作为训练数据,对生成策略进行一次有监督微调(行为克隆),然后反复迭代,使得模型越来越倾向于生成有效的self-edit。ReSTEM本质上是一个期望最大化过程,相比PPO等策略梯度方法,ReSTEM结构更简单,训练更稳定,同时也更适用于大模型的生成行为学习任务。通过这一套机制,SEAL实现了“学会如何让自己学得更好”。模型不仅能通过已有数据完成任务,更能主动设计训练方式、构造训练数据,并不断通过反馈优化这种“自学习”的策略。最终表现为一种具备自我编辑与持续进化能力的语言模型结构。论文地址:https://arxiv.org/abs/2506.10943项目主页:https://jyopari.github.io/posts/seal

来源:小熊看科技

相关推荐