中国再出黑马!科研人员破解AI推理方式,2大关键训练步骤出炉

B站影视 内地电影 2025-10-09 13:49 1

摘要:现在的AI模型,比如能写文案、解数学题的大型语言模型(LLM)。虽然挺厉害,但遇到复杂问题时就有点“吃力”。

现在的AI模型,比如能写文案、解数学题的大型语言模型(LLM)。虽然挺厉害,但遇到复杂问题时就有点“吃力”。

就拿推理来说,以前靠“思维链”(CoT),让 AI 一步步用文字把思考过程写出来。

比如解数学题时先列公式再算步骤。

可问题是,思考步骤越长,AI要处理的文字越多。

计算成本就像滚雪球一样往上涨,复杂任务根本扛不住。

直到2024年,田渊栋团队提出了“连续思维链”(Coconut),才算找到突破口。

这东西跟传统思维链最大的不一样,就是把AI的思考过程藏在“连续隐空间”里,不用转换成一段段文字。

打个比方,传统思维链是AI边想边写日记,每一步都要写清楚;

而连续思维链更像AI在脑子里默默梳理思路。

不用把每个想法都写下来,效率一下子就提上去了。

实验里也看得出来,用这种方法,AI的推理性能明显变好,还省了不少计算资源。​

不过当时大家心里都有个疑问:这“脑子里梳理思路”的本事,AI是怎么在训练中自己学会的?总不能每次都靠人工设计吧?

直到2025年,田渊栋团队跟Stuart Russell团队合作,才从理论上把这个问题说清楚。

答案是“叠加的涌现”。

简单说,就是AI在面对多个可能的思考路径时,不会像以前那样非要选一条走。

而是能在“连续隐空间”里同时保留所有路径,就像人在想问题时会同时考虑好几种方案。

这种能力是训练中自己冒出来的,不是硬教的。​

以前总觉得AI的复杂能力都是靠大量数据喂出来的。

现在发现,只要方法对,AI还能自己摸索出更高效的思考方式。

这对未来做更复杂的AI推理任务,比如科研分析、复杂决策,算是打开了一扇新门。​

田渊栋团队为了搞明白“叠加的涌现”是怎么回事,专门选了一个简单任务来研究。

“图可达性问题”,就是判断在一个有很多节点和连线的图里,从起点能不能走到终点。

他们用一个只有两层的Transformer模型来做实验。

没想到就这么简单的模型,居然也能练出“并行思考”的本事。​

研究发现,AI的训练过程其实分两步:

第一步是“思维生成”,AI在脑子里默默梳理可能的路径;

第二步是“预测”,根据梳理好的思路给出最终答案。

最有意思的是,哪怕每次训练只给AI看一种正确路径,它在“思维生成”阶段也能自己学会保留多种可能路径。

这就像老师只教了一道题的一种解法,学生却自己琢磨出了好几种,能力比想象中更强。

这里面有个关键指标叫“索引匹配 logit”,它能衡量AI局部搜索能力的强弱。

团队发现,用连续思维链训练时,这个指标会保持在一个合适的范围里,不会太弱也不会太强。

要是太弱,AI就像没头苍蝇,找不到正确路径;

要是太强,AI就会太自信,认准一条路走到黑,错过真正正确的答案。

只有指标适中,AI才能既利用已知的局部信息。

又不忽略其他可能的路径,自然就形成了“叠加推理”。​

对比传统训练方法就更明显了,传统方法里这个指标会一个劲往上涨。

最后变得无界,AI很容易钻牛角尖。

而且实验还发现,一旦AI在早期训练中学会了“叠加推理”,后面再学更复杂的任务时会特别快。

比如练过处理2步路径后,再处理3步、4步路径,根本不用重新教,这就是“长度泛化”能力。​

这么看起来,这个研究的意义不只是解决了AI推理成本高的问题。

更重要的是让我们看到了 AI 自主学习复杂能力的潜力。

以后再开发AI时,不用再手把手教每一个细节。

只要给对训练方法,AI自己就能摸索出更高效的做事方式。

现在实验里的模型在测试集上准确率已经到了96.2%。

要是把这个方法用到更复杂的模型和任务上,说不定能让AI在科研、医疗这些需要深度推理的领域,发挥更大的作用。

来源:米奇回来了哟

相关推荐