智能科学家LeCun 新研究,大语言模型不再卡壳,彻底告别死记硬背

B站影视 内地电影 2025-09-23 14:38 1

摘要:平时用的ChatGPT、文心一言这些大模型,训练的时候都有个固定套路,基本都是在“输入空间”里琢磨,比如根据前面的文字猜下一个词,就像玩成语接龙一样,顺着往下续。

文 /编辑:雨

AI圈最近有个大动作,Meta的AI大佬LeCun没再像以前那样批评大语言模型(LLM),而是亲自下场搞起了改造。

平时用的ChatGPT、文心一言这些大模型,训练的时候都有个固定套路,基本都是在“输入空间”里琢磨,比如根据前面的文字猜下一个词,就像玩成语接龙一样,顺着往下续。

但这种方式其实有局限,学东西不够灵活,还容易出现“死记硬背”的问题,这时候有人就想到了计算机视觉(CV)领域的玩法,比如识别图片、视频的技术里,有一种叫JEPA的架构特别厉害。

它不直接在原始的图片像素上折腾,而是先把图片转换成更抽象的“嵌入空间”特征,再在这个空间里做预测学习,效果比在原始输入上操作好太多。

JEPA最早就是LeCun团队提出来的,后来Meta又搞出了针对图片的I-JEPA和针对视频的V-JEPA,在视觉领域证明了这思路靠谱。

既然视觉领域这么玩能成,那语言模型能不能也试试?之前不是没人想过,主要是大模型的本事大多靠生成文字来判断,比如让它写文章、编代码,都是在“输入空间”里干活,JEPA那种不依赖原始输入的玩法很难直接套过来。

现在LeCun和团队里的Hai Huang、Randall Balestriero一起,终于搞出了能给语言模型用的LLM-JEPA,把视觉领域的高效学习思路成功搬到了大模型这边。

他们的核心想法很简单,就是把像文本和代码这样的东西,当成对同一个知识的不同“说法”,比如一个数学公式,用文字描述是一种形式,写成代码又是另一种形式,这俩其实说的是一回事。

LLM-JEPA就利用这种关系,在保留大模型原本生成能力的同时,又加入了JEPA在“嵌入空间”学东西的优势,相当于给大模型开了个“外挂”, 具体怎么操作呢?首先得保证大模型还能正常写东西、编代码,所以基础还是原来的训练方式。

然后在这个基础上,再加上JEPA的训练目标,这里面有几个关键部分,比如“编码器”,就是把文本或者代码转换成抽象特征,他们用的是大模型最后一层的输出,“度量”,用来比较不同特征像不像,直接用了视觉领域常用的余弦相似度。

还有“预测器”,特别聪明地利用了大模型本身的结构,在输入末尾加个特殊的[PRED]标识,让模型自己生成预测结果,不用额外再搭复杂的网络,省了不少事。

当然,这么改到底有没有用,得靠实验说话,研究团队用了好几个主流大模型,比如Llama3、OpenELM、Gemma2、Olmo,还找了各种数据集,像NL-RX、GSM8K、Spider这些,不管是微调还是预训练,都试了个遍。

结果很明显,加了LLM-JEPA之后,大模型的性能全都上去了,而且对过拟合的抵抗力也强了不少,比如在NL-RX数据集上测精确匹配准确率,改过后的模型分数明显更高,就算在不同的LoRA配置下,这种优势也没消失。

更有意思的是,他们发现LLM-JEPA还能让模型学会文本和代码之间的“转换密码”,差不多能做到从文本特征近似算出代码特征,而且在预训练阶段用这个方法,模型后来做情感分类这类下游任务时,表现也更好,说明这种学习到的能力能迁移到其他任务上。

最关键的是,加了新功能之后,大模型原本的生成能力没受影响,该写文章还能写,该编代码还能编,不过这方法也不是没缺点,现在最大的问题就是训练成本太高,因为要分别处理文本和代码这些不同“视角”的数据,得跑两次模型,计算量差不多翻了三倍。

团队说以后想办法优化,比如用掩码自注意力的方式,让模型一次就能处理完,把成本降下来,还有人担心,这种方法太依赖文本和代码这种“配对数据”,要是遇到没配对的数据,效果可能就不行了,实际用起来受限不少。

目前来看,LLM-JEPA算是给大模型的发展指了个新方向,把不同AI领域的好思路结合起来,说不定能解决不少老问题,后续要是能把这些问题解决了,以后用的大模型可能会更聪明、更灵活,不管是写东西、算题还是编代码,说不定都能比现在强一大截。

来源:淩轩a

相关推荐