摘要:现在的AI模型,比如能写文案、解数学题的大型语言模型(LLM)。虽然挺厉害,但遇到复杂问题时就有点“吃力”。
现在的AI模型,比如能写文案、解数学题的大型语言模型(LLM)。虽然挺厉害,但遇到复杂问题时就有点“吃力”。
就拿推理来说,以前靠“思维链”(CoT),让 AI 一步步用文字把思考过程写出来。
比如解数学题时先列公式再算步骤。
可问题是,思考步骤越长,AI要处理的文字越多。
计算成本就像滚雪球一样往上涨,复杂任务根本扛不住。
直到2024年,田渊栋团队提出了“连续思维链”(Coconut),才算找到突破口。
这东西跟传统思维链最大的不一样,就是把AI的思考过程藏在“连续隐空间”里,不用转换成一段段文字。
打个比方,传统思维链是AI边想边写日记,每一步都要写清楚;
而连续思维链更像AI在脑子里默默梳理思路。
不用把每个想法都写下来,效率一下子就提上去了。
实验里也看得出来,用这种方法,AI的推理性能明显变好,还省了不少计算资源。
不过当时大家心里都有个疑问:这“脑子里梳理思路”的本事,AI是怎么在训练中自己学会的?总不能每次都靠人工设计吧?
直到2025年,田渊栋团队跟Stuart Russell团队合作,才从理论上把这个问题说清楚。
答案是“叠加的涌现”。
简单说,就是AI在面对多个可能的思考路径时,不会像以前那样非要选一条走。
而是能在“连续隐空间”里同时保留所有路径,就像人在想问题时会同时考虑好几种方案。
这种能力是训练中自己冒出来的,不是硬教的。
以前总觉得AI的复杂能力都是靠大量数据喂出来的。
现在发现,只要方法对,AI还能自己摸索出更高效的思考方式。
这对未来做更复杂的AI推理任务,比如科研分析、复杂决策,算是打开了一扇新门。
田渊栋团队为了搞明白“叠加的涌现”是怎么回事,专门选了一个简单任务来研究。
“图可达性问题”,就是判断在一个有很多节点和连线的图里,从起点能不能走到终点。
他们用一个只有两层的Transformer模型来做实验。
没想到就这么简单的模型,居然也能练出“并行思考”的本事。
研究发现,AI的训练过程其实分两步:
第一步是“思维生成”,AI在脑子里默默梳理可能的路径;
第二步是“预测”,根据梳理好的思路给出最终答案。
最有意思的是,哪怕每次训练只给AI看一种正确路径,它在“思维生成”阶段也能自己学会保留多种可能路径。
这就像老师只教了一道题的一种解法,学生却自己琢磨出了好几种,能力比想象中更强。
这里面有个关键指标叫“索引匹配 logit”,它能衡量AI局部搜索能力的强弱。
团队发现,用连续思维链训练时,这个指标会保持在一个合适的范围里,不会太弱也不会太强。
要是太弱,AI就像没头苍蝇,找不到正确路径;
要是太强,AI就会太自信,认准一条路走到黑,错过真正正确的答案。
只有指标适中,AI才能既利用已知的局部信息。
又不忽略其他可能的路径,自然就形成了“叠加推理”。
对比传统训练方法就更明显了,传统方法里这个指标会一个劲往上涨。
最后变得无界,AI很容易钻牛角尖。
而且实验还发现,一旦AI在早期训练中学会了“叠加推理”,后面再学更复杂的任务时会特别快。
比如练过处理2步路径后,再处理3步、4步路径,根本不用重新教,这就是“长度泛化”能力。
这么看起来,这个研究的意义不只是解决了AI推理成本高的问题。
更重要的是让我们看到了 AI 自主学习复杂能力的潜力。
以后再开发AI时,不用再手把手教每一个细节。
只要给对训练方法,AI自己就能摸索出更高效的做事方式。
现在实验里的模型在测试集上准确率已经到了96.2%。
要是把这个方法用到更复杂的模型和任务上,说不定能让AI在科研、医疗这些需要深度推理的领域,发挥更大的作用。
来源:米奇回来了哟