酷似“小孩玩游戏”,AI大模型会主动学习

B站影视 韩国电影 2025-09-28 18:03 1

摘要:最近,DeepSeek的AI团队在知名期刊《自然》上,以封面报道的形式刊发了DeepSeek-R1的科学原理。其中“老话”重提,再一次细细地讲解了大语言模型(LLMs)不必依赖人工示例或复杂指令,也能通过试错式强化学习,自主学会生成推理过程。

最近,DeepSeek的AI团队在知名期刊《自然》上,以封面报道的形式刊发了DeepSeek-R1的科学原理。其中“老话”重提,再一次细细地讲解了大语言模型(LLMs)不必依赖人工示例或复杂指令,也能通过试错式强化学习,自主学会生成推理过程。

AI会自发进行“自省”,这被认为是人工智能(AI)探索人类之外思维路径的重要迹象。英伟达CEO黄仁勋曾公开表示,DeepSeek-R1在推理与推断方面推动了业界的思考方式——具体又是什么意思?

01

过关斩将式学习法

AI不仅能够给出答案,还能够解释如何得出答案——这是DeepSeek最初让我们惊艳的地方。

还记得上学的时候,数学老师总是坚持让我们写出解题过程,没想到这个要求竟然成了提升AI能力的关键秘诀。

长期以来的研究,让技术人员发现了一个大模型“怪现象”:当AI解决数学题、编写复杂算法或回答理工科难题时,如果它能先写出推理步骤,再给出最终答案,正确率会显著提高。

这像极了被老师要求“展示解题步骤”的人类学生。但如何让AI学会这一技能,却让研究者、技术人员伤透了脑筋。

“提示工程”方式容易让AI染上人类的偏见

以往有两种方法可以“曲线救国”。一种是“提示工程”,即在提问时添加“逐步思考”这样的指令,诱导模型输出推理链条。这就像考试时老师提醒学生“记得写步骤哦”,但效果完全取决于提醒的方式和语气,还容易染上人类的偏见。

另一种方法是监督学习,通过提供大量人类编写的推理示例,让模型进行模仿。这种方法容易让AI被困在人类已有的思维范式中,难以创新突破,就像只会模仿老师解题方法却不会举一反三的学生。

这两种方法虽然都有一定效果,但都未能让AI真正实现“自主推理”,不是过度依赖人类语言设计,就是被固定在了人类已有的思维方式中。

DeepSeek团队选择了一条截然不同的道路——他们让AI像小孩子玩电子游戏一样“不断试错”。

具体来看,在DeepSeek-R1模型的训练中,研究人员引入了“强化学习机制”,这种方法的核心一套奖惩体系:当模型输出正确答案时给予高分奖励,错误答案则受到惩罚。当然设计的任务都是有明确对错答案的数学、编程题。

这个现在我们比较熟悉的模式,其实完全颠覆了传统的训练方式。

它不需要大量人工来编写推理示例,只需要告诉AI最终答案的对错。随着训练的进行,模型自己会逐渐意识到,通过展示推理步骤能够显著增加获得正确答案的概率,于是自发地开始输出清晰的推理过程。

就像不需要老师一步步去教解题方法,只需要告诉一个聪明学生,答案是对是错,这位学生自己会找到正确的解题路径。

02

会思考也要懂适可而止

这种学习方式的结果就是,DeepSeek-R1及其早期版本在多个权威基准上表现优异,不仅在编程竞赛中表现出色,在研究生水平的生物学、物理学、化学任务中也展现出强大能力。

这意味着,AI不仅在计算能力上,就连需要逻辑推理的数学领域也开始迎头赶上。

最有趣的是,模型在推理过程中会展现出自发的反思与验证行为,甚至会插入诸如“等等,这是一个关键突破点”的语句,仿佛在自我提醒和修正——这也是此前很少见的。

“AI不仅能够给出答案,还能够解释如何得出答案”,这对构建可解释、可信赖的人工智能具有重要意义。同时,这种自发的“自省”现象被认为是AI探索人类之外思维路径的重要迹象,也暗示着,AI可能正在发展出某种形式的自我意识萌芽。

不过AI的“自言自语”也有一些让人苦恼的地方,比如变成了一个“话唠”。

早期的DeepSeek-R1模型版本会在解答一道数学题时产出上万字的推理文本,还在中英文之间频繁切换,让阅读者一头雾水。

强化学习让AI学会了思考,却没教会它适可而止。

就像是一个突然开窍的学生,对自己的思考过程有强烈的展示欲望,把每一步、甚至每个可能的错误路径都详细写下来,文字冗长、可读性差,导致用户难以理解。

更麻烦的是,它只能处理有明确对错的问题,对于需要主观判断的文学创作或评论任务则完全无能为力。

03

自由与规范的平衡点

这个问题透露了单纯强化学习的局限性:AI依然需要一定的引导,不能完全靠自己摸索。

为了解决这些问题,DeepSeek团队设计了一套“多阶段训练框架”,巧妙结合了强化学习与监督学习的优势。

这就像是既让学生自由探索(强化学习),又请老师适当指导(监督学习)。强化学习保证模型具备探索和反思能力,监督学习则通过少量人类标注数据优化输出的可读性和语言一致性。

为了提升模型在多语言、多任务环境下的表现,DeepSeek团队增加了冷启动数据、人类偏好对齐、拒绝采样和二次强化学习等环节。

“人类偏好对齐”是指让AI学习人类喜欢的表达方式;“拒绝采样”则是为了过滤掉低质量输出。

总的来看,训练AI大模型和培养孩子也没什么不一样,总是要在“自由探索”与“规范指导”之间找到平衡点。

微信订阅

欢迎邮局订阅2026年《电脑报》

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者”

来源:壹零社

相关推荐