ThinkingMachines力推LoRA：成本低效果近FullFT，实验揭秘关键

摘要：2025年9月30号下午6点多，机器之心Pro发了条消息，说ThinkingMachines又更新博客了。

2025年9月30号下午6点多，机器之心Pro发了条消息，说ThinkingMachines又更新博客了。

这次博客没绕弯子，直接力推LoRA，还把它跟全量微调（FullFT）放在一起比了个透彻。

搞AI微调的人对这俩技术肯定不陌生，但之前业内一直没个准数，LoRA是便宜，可性能到底能不能追上FullFT？这次这篇博客算是给了些实实在在的答案。

先掰扯清楚这俩到底是啥，FullFT就是给大模型“全身动刀”，所有参数都要改。

它的好处是性能稳定，不会出啥大岔子，但问题也很明显，太费钱、太占显存。

我之前听朋友说，他们微调一个70B参数的模型，用FullFT得拿三张A100显卡，光硬件租金就不是小数目，中小团队根本扛不住。

LoRA就不一样了，它是2021年微软提出来的技术，核心思路特别“聪明”。

它不碰原模型的大权重，就学两个小矩阵当“适配器”，相当于给模型装个小插件。

这样一来，显存占用少了，加载速度快了，还能一个模型装多个适配器，比如同时处理客服和摘要任务。

本来想这技术肯定有短板，后来发现只要用对场景，性能还真不差。

为啥现在大家都盯着LoRA？主要是后训练场景的数据量没那么大，大多是几万条样本的指令微调或推理优化，这些信息量LoRA完全能装下。

之前学界总说“大数据场景下LoRA不如FullFT”，但这次ThinkingMachines提了个“低遗憾区间”的说法，大多数后训练场景里，用LoRA花更少的钱，就能拿到和FullFT差不多的效果，选它根本不会后悔。

对小团队来说，这可不是选不选的问题，怕是没得选，毕竟FullFT的成本真的扛不动。

当然，光说不练假把式。

ThinkingMachines这次做了不少实验，就是想搞明白“到底在啥条件下，LoRA能追上FullFT”。

他们选的模型都是业内常用的，LLaMA3和Qwen3，还覆盖了有监督微调和强化学习两种任务。

数据集也很实在，有Tulu3这种几万条的指令集，还有GSM、MATH这种数学推理数据集，从小学题到中学题都有。

最让我意外的是小到中等数据量的任务，比如在Tulu3和OpenThoughts3上做微调，高秩的LoRA（rank设到128以上）和FullFT的学习曲线几乎叠在一起，最后算出来的损失值差得特别小。

我还特意看了具体数据，LLaMA3-8B在Tulu3上微调，FullFT的损失是1.82，LoRA是1.83，几乎没差别。

强化学习任务更夸张，哪怕LoRA的rank设成1，特别小的容量，在数学推理题上的性能也能到FullFT的九成五以上。

后来想了想，强化学习每个训练步骤给的信息少，LoRA的容量足够用了，这也说得通。

不过大数据量任务确实不行，LoRA会因为容量不够，训练效率变慢，但也不是完全没法用，只是得多花点时间。

实验里还提了些“避坑”细节，这些可比理论重要多了。

比如LoRA不能只装在注意力层，得覆盖所有层，尤其是MLP层，这层参数多，对训练影响大，只调注意力层效果差远了。

还有批量大小，LoRA对大批量的容忍度低，批量太大性能掉得比FullFT明显，而且就算调高rank也没用，这是技术本身的特性。

超参数也得注意，LoRA的最优学习率大概是FullFT的10倍，刚开始训练的时候得用更高的学习率，后来再降下来。

不过好在LoRA对rank不敏感，调一次学习率能应付不同rank，不用反复试，省了不少事。

看完这些实验，我觉得LoRA的定位更清晰了。

不是说它能替代FullFT，而是在大多数实际场景里，它是更合适的选择。

比如中小团队做客服机器人、教育领域的数学推理，用LoRA既省成本又出效果，何乐而不为？

当然，LoRA还有不少可挖的地方，比如怎么精准预测它和FullFT的差距，怎么和并行技术兼容。

但对现在来说，ThinkingMachines的这些实验已经够实在了，它告诉我们，不用再纠结“选便宜的还是选稳的”，LoRA在很多时候能两者都占。

以后做微调，除非是超大数据量的预训练级任务，不然我肯定先试LoRA，毕竟谁也不想花冤枉钱不是？

来源：由典学法一点号

标签： lora thinkingmachines 实 fullft

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!