摘要:2025年9月30号下午6点多,机器之心Pro发了条消息,说ThinkingMachines又更新博客了。
2025年9月30号下午6点多,机器之心Pro发了条消息,说ThinkingMachines又更新博客了。
这次博客没绕弯子,直接力推LoRA,还把它跟全量微调(FullFT)放在一起比了个透彻。
搞AI微调的人对这俩技术肯定不陌生,但之前业内一直没个准数,LoRA是便宜,可性能到底能不能追上FullFT?这次这篇博客算是给了些实实在在的答案。
先掰扯清楚这俩到底是啥,FullFT就是给大模型“全身动刀”,所有参数都要改。
它的好处是性能稳定,不会出啥大岔子,但问题也很明显,太费钱、太占显存。
我之前听朋友说,他们微调一个70B参数的模型,用FullFT得拿三张A100显卡,光硬件租金就不是小数目,中小团队根本扛不住。
LoRA就不一样了,它是2021年微软提出来的技术,核心思路特别“聪明”。
它不碰原模型的大权重,就学两个小矩阵当“适配器”,相当于给模型装个小插件。
这样一来,显存占用少了,加载速度快了,还能一个模型装多个适配器,比如同时处理客服和摘要任务。
本来想这技术肯定有短板,后来发现只要用对场景,性能还真不差。
为啥现在大家都盯着LoRA?主要是后训练场景的数据量没那么大,大多是几万条样本的指令微调或推理优化,这些信息量LoRA完全能装下。
之前学界总说“大数据场景下LoRA不如FullFT”,但这次ThinkingMachines提了个“低遗憾区间”的说法,大多数后训练场景里,用LoRA花更少的钱,就能拿到和FullFT差不多的效果,选它根本不会后悔。
对小团队来说,这可不是选不选的问题,怕是没得选,毕竟FullFT的成本真的扛不动。
当然,光说不练假把式。
ThinkingMachines这次做了不少实验,就是想搞明白“到底在啥条件下,LoRA能追上FullFT”。
他们选的模型都是业内常用的,LLaMA3和Qwen3,还覆盖了有监督微调和强化学习两种任务。
数据集也很实在,有Tulu3这种几万条的指令集,还有GSM、MATH这种数学推理数据集,从小学题到中学题都有。
最让我意外的是小到中等数据量的任务,比如在Tulu3和OpenThoughts3上做微调,高秩的LoRA(rank设到128以上)和FullFT的学习曲线几乎叠在一起,最后算出来的损失值差得特别小。
我还特意看了具体数据,LLaMA3-8B在Tulu3上微调,FullFT的损失是1.82,LoRA是1.83,几乎没差别。
强化学习任务更夸张,哪怕LoRA的rank设成1,特别小的容量,在数学推理题上的性能也能到FullFT的九成五以上。
后来想了想,强化学习每个训练步骤给的信息少,LoRA的容量足够用了,这也说得通。
不过大数据量任务确实不行,LoRA会因为容量不够,训练效率变慢,但也不是完全没法用,只是得多花点时间。
实验里还提了些“避坑”细节,这些可比理论重要多了。
比如LoRA不能只装在注意力层,得覆盖所有层,尤其是MLP层,这层参数多,对训练影响大,只调注意力层效果差远了。
还有批量大小,LoRA对大批量的容忍度低,批量太大性能掉得比FullFT明显,而且就算调高rank也没用,这是技术本身的特性。
超参数也得注意,LoRA的最优学习率大概是FullFT的10倍,刚开始训练的时候得用更高的学习率,后来再降下来。
不过好在LoRA对rank不敏感,调一次学习率能应付不同rank,不用反复试,省了不少事。
看完这些实验,我觉得LoRA的定位更清晰了。
不是说它能替代FullFT,而是在大多数实际场景里,它是更合适的选择。
比如中小团队做客服机器人、教育领域的数学推理,用LoRA既省成本又出效果,何乐而不为?
当然,LoRA还有不少可挖的地方,比如怎么精准预测它和FullFT的差距,怎么和并行技术兼容。
但对现在来说,ThinkingMachines的这些实验已经够实在了,它告诉我们,不用再纠结“选便宜的还是选稳的”,LoRA在很多时候能两者都占。
以后做微调,除非是超大数据量的预训练级任务,不然我肯定先试LoRA,毕竟谁也不想花冤枉钱不是?
来源:由典学法一点号