摘要:过去几年,语言大模型(LLM)横扫AI领域,靠着“预测下一个词”这一招,攻城略地、风头无两。但问题也逐渐浮出水面:训练成本高、泛化能力差、容易过拟合。Meta首席AI科学家 Yann LeCun 倒是早有批评,这次他不再只是“嘴上说说”,而是亲自下场,带队搞出
过去几年,语言大模型(LLM)横扫AI领域,靠着“预测下一个词”这一招,攻城略地、风头无两。但问题也逐渐浮出水面:训练成本高、泛化能力差、容易过拟合。Meta首席AI科学家 Yann LeCun 倒是早有批评,这次他不再只是“嘴上说说”,而是亲自下场,带队搞出个新东西——LLM-JEPA。
这个项目把他在视觉界风生水起的 JEPA(联合嵌入预测架构)思路,硬生生移植到了语言模型上。结果咋样?实验一跑,多个基准模型和任务上,性能和鲁棒性双双提升,LLM 训练有了不一样的打开方式。
JEPA 并不是新概念。它最早由 LeCun 提出,在图像和视频任务上已经证明了自己,用“预测嵌入”代替“还原像素”,效果拔群。CVPR 2023 上的 I-JEPA(图像)和后来的 V-JEPA都是它的代表作。
而这次,LeCun 与 Hai Huang、Randall Balestriero 一起,把 JEPA 的理念带入 LLM 世界,提出了 LLM-JEPA。简单说,它不再让模型死磕“预测下一个词”,而是让模型在“嵌入空间”中学习不同视角之间的关联,比如同一个知识点的“文本”和“代码”两个版本。
这事之前没人做成过,原因也很现实:LLM 的效果是靠“生成”体现的,这天生属于“输入空间”的任务,JEPA 那套“抽象预测”本来就不适配。但这次,团队找到了解法。
LLM-JEPA 的核心思路是,在保留 LLM 原本生成能力的同时,引入一个额外的 JEPA 目标,去优化嵌入空间中的相似性。举个例子,把一个问题的文本描述和它的代码实现视为两个“视角”,用模型分别编码后,再设计一个 JEPA 损失,让这两个嵌入尽可能接近。
这个额外目标不是拿来替代原来的训练目标,而是作为补充。最终的损失函数是两者的加权组合,其中 JEPA 部分的损失采用余弦相似度来衡量编码之间的距离。
为了实现这个目标,团队还创新性地设计了一个“预测器 token”,插在输入末尾,让模型自己用已有权重预测出另一个视角的嵌入,整个过程几乎不增加额外参数。
值得一提的是,虽然训练时需要两次前向传播(分别计算两个视角的编码),但推理时不需要这一步,对实际部署影响不大。
LLM-JEPA 不只是一个理论模型,它还在多个真实任务上打出了漂亮的成绩。
在 Llama3、OpenELM、Gemma2、Olmo 等主流模型上,团队测试了多个任务,包括 NL-RX、GSM8K、Spider、Rotten Tomatoes 等,不管是问答、SQL生成,还是情感分类,LLM-JEPA 都显著优于传统训练目标。
比如在 NL-RX 数据集上,LLM-JEPA 的准确率高于 baseline,并且在不同的 LoRA 配置下,优势依旧稳固。
不仅是微调阶段,LLM-JEPA 在预训练上也有用。研究者从头训练了一个 Llama3.2-1B 模型,发现 JEPA 预训练出来的模型,在下游任务上微调时表现更强。
尤其在释义类数据(paraphrase)上的预训练,迁移到情感分类任务(rotten_tomatoes、yelp)时效果更突出,这说明 JEPA 带来的嵌入空间学习确实更有通用性。
而且,实验还发现模型生成的样本质量并未下降,说明 JEPA 的加入并没有破坏原有的语言建模能力。
LLM-JEPA 的最大亮点,是打破了“LLM 只能在输入空间优化”的思维定式,为语言模型引入了“抽象空间”学习的可能性。
但它也有现实问题:
训练成本高:为了获取不同视角的编码,需要两次前向传播,训练成本大约是原来的三倍。依赖配对数据:JEPA 目标需要成对的数据(如文本与代码),在实际应用中不够通用。团队表示,未来计划通过修改注意力机制(如掩码自注意力)来实现单次前向传播计算 JEPA 损失,降低成本。同时,也会探索如何更好地利用非配对数据。
从视觉到语言,JEPA 这条路走得并不容易,但 LLM-JEPA 的表现确实让人眼前一亮。它不是要替代现有的 LLM 训练范式,而是提供了一个新的方向——让模型在生成之外,学会如何理解不同视角背后的共通知识。
这不仅提升了模型的泛化能力,也为构建更鲁棒、更高效的 LLM 打下了基础。
LeCun 一直在批评 LLM 的“盲目生成”,如今,他用 JEPA 给出了自己的答案。未来 LLM 的训练方式,也许真的要变一变了。
来源:球哥开侃