中国再出黑马！科研人员破解AI推理方式，2大关键训练步骤出炉

B站影视内地电影 2025-10-09 13:49 4

摘要：现在的AI模型，比如能写文案、解数学题的大型语言模型（LLM）。虽然挺厉害，但遇到复杂问题时就有点“吃力”。

现在的AI模型，比如能写文案、解数学题的大型语言模型（LLM）。虽然挺厉害，但遇到复杂问题时就有点“吃力”。

就拿推理来说，以前靠“思维链”（CoT），让 AI 一步步用文字把思考过程写出来。

比如解数学题时先列公式再算步骤。

可问题是，思考步骤越长，AI要处理的文字越多。

计算成本就像滚雪球一样往上涨，复杂任务根本扛不住。

直到2024年，田渊栋团队提出了“连续思维链”（Coconut），才算找到突破口。

这东西跟传统思维链最大的不一样，就是把AI的思考过程藏在“连续隐空间”里，不用转换成一段段文字。

打个比方，传统思维链是AI边想边写日记，每一步都要写清楚；

而连续思维链更像AI在脑子里默默梳理思路。

不用把每个想法都写下来，效率一下子就提上去了。

实验里也看得出来，用这种方法，AI的推理性能明显变好，还省了不少计算资源。

不过当时大家心里都有个疑问：这“脑子里梳理思路”的本事，AI是怎么在训练中自己学会的？总不能每次都靠人工设计吧？

直到2025年，田渊栋团队跟Stuart Russell团队合作，才从理论上把这个问题说清楚。

答案是“叠加的涌现”。

简单说，就是AI在面对多个可能的思考路径时，不会像以前那样非要选一条走。

而是能在“连续隐空间”里同时保留所有路径，就像人在想问题时会同时考虑好几种方案。

这种能力是训练中自己冒出来的，不是硬教的。

以前总觉得AI的复杂能力都是靠大量数据喂出来的。

现在发现，只要方法对，AI还能自己摸索出更高效的思考方式。

这对未来做更复杂的AI推理任务，比如科研分析、复杂决策，算是打开了一扇新门。

田渊栋团队为了搞明白“叠加的涌现”是怎么回事，专门选了一个简单任务来研究。

“图可达性问题”，就是判断在一个有很多节点和连线的图里，从起点能不能走到终点。

他们用一个只有两层的Transformer模型来做实验。

没想到就这么简单的模型，居然也能练出“并行思考”的本事。

研究发现，AI的训练过程其实分两步：

第一步是“思维生成”，AI在脑子里默默梳理可能的路径；

第二步是“预测”，根据梳理好的思路给出最终答案。

最有意思的是，哪怕每次训练只给AI看一种正确路径，它在“思维生成”阶段也能自己学会保留多种可能路径。

这就像老师只教了一道题的一种解法，学生却自己琢磨出了好几种，能力比想象中更强。

这里面有个关键指标叫“索引匹配 logit”，它能衡量AI局部搜索能力的强弱。

团队发现，用连续思维链训练时，这个指标会保持在一个合适的范围里，不会太弱也不会太强。

要是太弱，AI就像没头苍蝇，找不到正确路径；

要是太强，AI就会太自信，认准一条路走到黑，错过真正正确的答案。

只有指标适中，AI才能既利用已知的局部信息。

又不忽略其他可能的路径，自然就形成了“叠加推理”。

对比传统训练方法就更明显了，传统方法里这个指标会一个劲往上涨。

最后变得无界，AI很容易钻牛角尖。

而且实验还发现，一旦AI在早期训练中学会了“叠加推理”，后面再学更复杂的任务时会特别快。

比如练过处理2步路径后，再处理3步、4步路径，根本不用重新教，这就是“长度泛化”能力。

这么看起来，这个研究的意义不只是解决了AI推理成本高的问题。

更重要的是让我们看到了 AI 自主学习复杂能力的潜力。

以后再开发AI时，不用再手把手教每一个细节。

只要给对训练方法，AI自己就能摸索出更高效的做事方式。

现在实验里的模型在测试集上准确率已经到了96.2%。

要是把这个方法用到更复杂的模型和任务上，说不定能让AI在科研、医疗这些需要深度推理的领域，发挥更大的作用。

来源：米奇回来了哟

标签：训练推理科研 ai推理田渊

本文地址：http://news.43b.com.cn/a/1501429.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!