清华联手上海 AILab!推理模型RL综述重磅发布,叩响超级智能大门

B站影视 欧美电影 2025-09-17 02:11 2

摘要:这篇论文标题是《ASurveyofReinforcementLearningforLargeReasoningModels》,专门梳理RL在大推理模型(LRM)里的最新进展。

2025年9月,清华大学和上海人工智能实验室等团队联合发布了一篇关于强化学习(RL)的综述论文。

这篇论文标题是《ASurveyofReinforcementLearningforLargeReasoningModels》,专门梳理RL在大推理模型(LRM)里的最新进展。

之前看AI解数学题、写代码,我总觉得是“死记硬背”,直到这篇综述出来,才明白RL正在让AI真正学会“推理”不是靠模板,是能自己规划、反思,甚至改错题。

要讲清这篇综述的价值,得先说说RL是怎么一步步让AI“进化”的,1998年Sutton提出RL概念时,就说了只要给明确奖励,AI能在复杂环境里超越人类。

2013年DeepMind做了个实验,用RL训练的智能体,只看屏幕像素和得分,就学会了玩《打砖块》。

后来AlphaGo、AlphaZero更厉害,靠自我对弈和奖励信号,在棋类领域达到人类难及的水平。

大模型时代来了后,RL先用来让AI“听话”比如RLHF(人类反馈强化学习),让AI回答更有用、诚实。

但最近几年不一样了,研究者想让AI不止“听话”,还能“思考”,OpenAI的o1和DeepSeek-R1就是例子,o1经RL训练后,投入更多“思考时间”性能就提升。

DeepSeek-R1在数学、编程里用明确奖励,比如数学题答对率、代码能不能运行,居然能引导出复杂推理能力。

如此看来,RL已经从“对齐人类偏好”转向“增益推理能力”,这可是AI往高级智能走的关键一步。

看完RL的“成长史”,就该琢磨这篇综述到底把RL推动LRM的核心逻辑拆透了没,毕竟光知道成果不够,得明白背后的“门道”才有用。

这篇综述里,研究者把RL用于LRM的核心拆成了三个部分,第一个是奖励设计,这相当于AI训练的“指挥棒”。

本来想简单说“奖励就是答对给分、答错扣分”,但后来发现没这么简单要是奖励只看结果不看过程,AI可能会瞎蒙答案;要是奖励设计偏了,AI还会“投机取巧”,比如生成看似有逻辑实则没用的内容。

所以综述里特别强调,奖励得“可验证”,比如数学题看步骤对不对,代码看能不能跑通。

第二个是策略优化,就是AI怎么靠奖励慢慢变好,综述里对比了好几种算法,其中GRPO(GroupRelativePolicyOptimization)算法很突出。

我查了下相关研究,发现GRPO比以前的方法更稳,不会练着练着就“跑偏”,训练效率也高,这对大规模LRM来说太重要了毕竟大模型训练一次要花不少算力,不稳定可不行。

第三个是采样策略,也就是AI怎么选训练数据,要是总选熟悉的数据,AI就会“原地踏步”;要是全选陌生数据,又容易“走弯路”。

综述里说,采样得平衡“探索”和“利用”,既要试试新方法,也别丢了已有的好能力。

很显然,这三个要素少一个都不行,它们凑在一起,才是RL让LRM学会推理的“底层逻辑”。

搞懂了RL怎么帮LRM“练本事”,就得看看这些本事现在能用在哪,还有哪些坎没过去,毕竟再厉害的技术,落地有用才算数。

综述里提到,RL优化的LRM已经在不少领域用上了,比如医学领域,有三甲医院和AI团队合作,用RL-LRM做罕见病诊断,靠“诊断正确”的奖励,让初诊准确率提了不少。

看到这我挺感慨的AI不是光用来写文案、做图片,还能帮医生看病,这才是真解决实际问题。

还有家庭服务机器人,上海AILab给机器人装了RL-LRM,靠“任务完成好”的奖励,机器人整理房间、识别人指令的能力越来越强,但挑战也不少。

首先是算力,LRM训练一次要大量GPU,不是所有团队都扛得住;其次是跨领域推理,比如在数学里很厉害的AI,到生物领域解推理题就容易懵,这得慢慢调奖励机制和训练数据。

还有可靠性,有些AI推理时会“跳步骤”,看着答案对,其实逻辑断了,这得在奖励里加“步骤正确”的要求。

这篇综述最有价值的地方,就是把RL通往通用人工超级智能(ASI)的路径理清楚了不是靠堆参数、堆数据,而是靠RL让AI真正学会推理。

虽然现在还有不少难题,但从o1到DeepSeek-R1,再到各种落地案例,能看出这条路是走得通的。

未来只要把算法再优化优化,把算力、数据问题慢慢解决,RL推动的LRM说不定真能在科学研究、日常生活里帮上更多忙,离超级智能再近一步。

来源:墨史浅吟

相关推荐