CV老将突围语言模型：JEPA杀进LLM，LeCun操刀，性能鲁棒双突破

摘要：过去几年，语言大模型（LLM）横扫AI领域，靠着“预测下一个词”这一招，攻城略地、风头无两。但问题也逐渐浮出水面：训练成本高、泛化能力差、容易过拟合。Meta首席AI科学家 Yann LeCun 倒是早有批评，这次他不再只是“嘴上说说”，而是亲自下场，带队搞出

过去几年，语言大模型（LLM）横扫AI领域，靠着“预测下一个词”这一招，攻城略地、风头无两。但问题也逐渐浮出水面：训练成本高、泛化能力差、容易过拟合。Meta首席AI科学家 Yann LeCun 倒是早有批评，这次他不再只是“嘴上说说”，而是亲自下场，带队搞出个新东西——LLM-JEPA。

这个项目把他在视觉界风生水起的 JEPA（联合嵌入预测架构）思路，硬生生移植到了语言模型上。结果咋样？实验一跑，多个基准模型和任务上，性能和鲁棒性双双提升，LLM 训练有了不一样的打开方式。

JEPA 并不是新概念。它最早由 LeCun 提出，在图像和视频任务上已经证明了自己，用“预测嵌入”代替“还原像素”，效果拔群。CVPR 2023 上的 I-JEPA（图像）和后来的 V-JEPA都是它的代表作。

而这次，LeCun 与 Hai Huang、Randall Balestriero 一起，把 JEPA 的理念带入 LLM 世界，提出了 LLM-JEPA。简单说，它不再让模型死磕“预测下一个词”，而是让模型在“嵌入空间”中学习不同视角之间的关联，比如同一个知识点的“文本”和“代码”两个版本。

这事之前没人做成过，原因也很现实：LLM 的效果是靠“生成”体现的，这天生属于“输入空间”的任务，JEPA 那套“抽象预测”本来就不适配。但这次，团队找到了解法。

LLM-JEPA 的核心思路是，在保留 LLM 原本生成能力的同时，引入一个额外的 JEPA 目标，去优化嵌入空间中的相似性。举个例子，把一个问题的文本描述和它的代码实现视为两个“视角”，用模型分别编码后，再设计一个 JEPA 损失，让这两个嵌入尽可能接近。

这个额外目标不是拿来替代原来的训练目标，而是作为补充。最终的损失函数是两者的加权组合，其中 JEPA 部分的损失采用余弦相似度来衡量编码之间的距离。

为了实现这个目标，团队还创新性地设计了一个“预测器 token”，插在输入末尾，让模型自己用已有权重预测出另一个视角的嵌入，整个过程几乎不增加额外参数。

值得一提的是，虽然训练时需要两次前向传播（分别计算两个视角的编码），但推理时不需要这一步，对实际部署影响不大。

LLM-JEPA 不只是一个理论模型，它还在多个真实任务上打出了漂亮的成绩。

在 Llama3、OpenELM、Gemma2、Olmo 等主流模型上，团队测试了多个任务，包括 NL-RX、GSM8K、Spider、Rotten Tomatoes 等，不管是问答、SQL生成，还是情感分类，LLM-JEPA 都显著优于传统训练目标。

比如在 NL-RX 数据集上，LLM-JEPA 的准确率高于 baseline，并且在不同的 LoRA 配置下，优势依旧稳固。

不仅是微调阶段，LLM-JEPA 在预训练上也有用。研究者从头训练了一个 Llama3.2-1B 模型，发现 JEPA 预训练出来的模型，在下游任务上微调时表现更强。

尤其在释义类数据（paraphrase）上的预训练，迁移到情感分类任务（rotten_tomatoes、yelp）时效果更突出，这说明 JEPA 带来的嵌入空间学习确实更有通用性。

而且，实验还发现模型生成的样本质量并未下降，说明 JEPA 的加入并没有破坏原有的语言建模能力。

LLM-JEPA 的最大亮点，是打破了“LLM 只能在输入空间优化”的思维定式，为语言模型引入了“抽象空间”学习的可能性。

但它也有现实问题：

训练成本高：为了获取不同视角的编码，需要两次前向传播，训练成本大约是原来的三倍。依赖配对数据：JEPA 目标需要成对的数据（如文本与代码），在实际应用中不够通用。

团队表示，未来计划通过修改注意力机制（如掩码自注意力）来实现单次前向传播计算 JEPA 损失，降低成本。同时，也会探索如何更好地利用非配对数据。

从视觉到语言，JEPA 这条路走得并不容易，但 LLM-JEPA 的表现确实让人眼前一亮。它不是要替代现有的 LLM 训练范式，而是提供了一个新的方向——让模型在生成之外，学会如何理解不同视角背后的共通知识。

这不仅提升了模型的泛化能力，也为构建更鲁棒、更高效的 LLM 打下了基础。

LeCun 一直在批评 LLM 的“盲目生成”，如今，他用 JEPA 给出了自己的答案。未来 LLM 的训练方式，也许真的要变一变了。

来源：球哥开侃

标签： llm 鲁棒 cv lecun jepa

本文地址：http://news.43b.com.cn/a/1302423.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐