智能科学家LeCun 新研究，大语言模型不再卡壳，彻底告别死记硬背

摘要：平时用的ChatGPT、文心一言这些大模型，训练的时候都有个固定套路，基本都是在“输入空间”里琢磨，比如根据前面的文字猜下一个词，就像玩成语接龙一样，顺着往下续。

文 /编辑：雨

AI圈最近有个大动作，Meta的AI大佬LeCun没再像以前那样批评大语言模型（LLM），而是亲自下场搞起了改造。

平时用的ChatGPT、文心一言这些大模型，训练的时候都有个固定套路，基本都是在“输入空间”里琢磨，比如根据前面的文字猜下一个词，就像玩成语接龙一样，顺着往下续。

但这种方式其实有局限，学东西不够灵活，还容易出现“死记硬背”的问题，这时候有人就想到了计算机视觉（CV）领域的玩法，比如识别图片、视频的技术里，有一种叫JEPA的架构特别厉害。

它不直接在原始的图片像素上折腾，而是先把图片转换成更抽象的“嵌入空间”特征，再在这个空间里做预测学习，效果比在原始输入上操作好太多。

JEPA最早就是LeCun团队提出来的，后来Meta又搞出了针对图片的I-JEPA和针对视频的V-JEPA，在视觉领域证明了这思路靠谱。

既然视觉领域这么玩能成，那语言模型能不能也试试？之前不是没人想过，主要是大模型的本事大多靠生成文字来判断，比如让它写文章、编代码，都是在“输入空间”里干活，JEPA那种不依赖原始输入的玩法很难直接套过来。

现在LeCun和团队里的Hai Huang、Randall Balestriero一起，终于搞出了能给语言模型用的LLM-JEPA，把视觉领域的高效学习思路成功搬到了大模型这边。

他们的核心想法很简单，就是把像文本和代码这样的东西，当成对同一个知识的不同“说法”，比如一个数学公式，用文字描述是一种形式，写成代码又是另一种形式，这俩其实说的是一回事。

LLM-JEPA就利用这种关系，在保留大模型原本生成能力的同时，又加入了JEPA在“嵌入空间”学东西的优势，相当于给大模型开了个“外挂”，具体怎么操作呢？首先得保证大模型还能正常写东西、编代码，所以基础还是原来的训练方式。

然后在这个基础上，再加上JEPA的训练目标，这里面有几个关键部分，比如“编码器”，就是把文本或者代码转换成抽象特征，他们用的是大模型最后一层的输出，“度量”，用来比较不同特征像不像，直接用了视觉领域常用的余弦相似度。

还有“预测器”，特别聪明地利用了大模型本身的结构，在输入末尾加个特殊的[PRED]标识，让模型自己生成预测结果，不用额外再搭复杂的网络，省了不少事。

当然，这么改到底有没有用，得靠实验说话，研究团队用了好几个主流大模型，比如Llama3、OpenELM、Gemma2、Olmo，还找了各种数据集，像NL-RX、GSM8K、Spider这些，不管是微调还是预训练，都试了个遍。

结果很明显，加了LLM-JEPA之后，大模型的性能全都上去了，而且对过拟合的抵抗力也强了不少，比如在NL-RX数据集上测精确匹配准确率，改过后的模型分数明显更高，就算在不同的LoRA配置下，这种优势也没消失。

更有意思的是，他们发现LLM-JEPA还能让模型学会文本和代码之间的“转换密码”，差不多能做到从文本特征近似算出代码特征，而且在预训练阶段用这个方法，模型后来做情感分类这类下游任务时，表现也更好，说明这种学习到的能力能迁移到其他任务上。

最关键的是，加了新功能之后，大模型原本的生成能力没受影响，该写文章还能写，该编代码还能编，不过这方法也不是没缺点，现在最大的问题就是训练成本太高，因为要分别处理文本和代码这些不同“视角”的数据，得跑两次模型，计算量差不多翻了三倍。

团队说以后想办法优化，比如用掩码自注意力的方式，让模型一次就能处理完，把成本降下来，还有人担心，这种方法太依赖文本和代码这种“配对数据”，要是遇到没配对的数据，效果可能就不行了，实际用起来受限不少。

目前来看，LLM-JEPA算是给大模型的发展指了个新方向，把不同AI领域的好思路结合起来，说不定能解决不少老问题，后续要是能把这些问题解决了，以后用的大模型可能会更聪明、更灵活，不管是写东西、算题还是编代码，说不定都能比现在强一大截。

来源：淩轩a

标签：模型科学家智能语言 lecun

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!