DeepSeek 研究员揭秘 R1 训练细节,春节见证 R1-Zero 强大进化

B站影视 2025-02-04 19:07 3

摘要:近日,随着春节假期的结束,一则新的信息展现Deepseek最新进展。DeepSeek 研究员 Daya Guo 在社交媒体上与网友的互动,不仅透露了 R1 模型训练的关键信息,还展示了公司在强化学习(RL)领域的持续探索和迅猛进展,让外界对 DeepSeek

近日,随着春节假期的结束,一则新的信息展现Deepseek最新进展。DeepSeek 研究员 Daya Guo 在社交媒体上与网友的互动,不仅透露了 R1 模型训练的关键信息,还展示了公司在强化学习(RL)领域的持续探索和迅猛进展,让外界对 DeepSeek 的技术实力和未来布局有了全新的认识。

自 DeepSeek 于 1 月 20 日发布其最新 AI 推理模型 DeepSeek R1 以来,这款在数学、代码和自然语言推理等任务上表现优异,性能直接对标美国 OpenAI 最新推理模型 o1 的产品,就吸引了全球 AI 爱好者和专业人士的目光。1 月 27 日,DeepSeek 登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,其官网也因访问量过大而一度 “宕机”,足以见得市场对其关注热度之高。

而此次 Daya Guo 的爆料,更是将 DeepSeek R1 的技术细节和后续发展计划进一步公开化。2 月 1 日,大年初四,Daya Guo 在社交媒体上分享了春节期间令他最为兴奋的事情 —— 亲眼见证了 R1-Zero 模型性能曲线的 “持续增长”,并强调感受到了强化学习(RL)的强大力量,这一分享瞬间点燃了网友们的好奇心,纷纷向他抛出各类问题。

在与网友的问答互动中,关于 R1 模型的关键信息逐渐浮出水面。当被问及模型性能持续提升的阶段以及未来潜力时,Daya Guo 坦诚回应,目前团队在 RL 领域仍处于非常早期的阶段,还有很长的路要探索,但他坚信今年将会看到显著的进展。这一回答无疑给外界传递了一个强烈信号:DeepSeek 对自身在 RL 领域的发展充满信心,R1 当前的成绩或许仅仅只是开端,未来有望带来更多突破。

针对模型是否真正具备泛化能力,而非单纯记忆状态转换和奖励的质疑,Daya Guo 给出了专业解答。他表示,团队使用 RL prompt 未覆盖领域的基准来评估泛化能力,目前来看,R1 似乎具备泛化能力。这一评估方式的披露,显示出 DeepSeek 在验证模型能力时采用了科学严谨的方法,用模型从未见过的新场景进行测试,确保评估结果真实可靠,也让外界对 R1 的能力有了更客观的认识。

在模型训练时间这一关键问题上,Daya Guo 详细解释了 R1 的迭代过程。他表示,660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始训练的,训练大约花费了 2 - 3 周。此前提到的 R1 模型(如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero。这一说明让外界了解到 DeepSeek 在模型研发过程中不断优化升级的努力,现在呈现的 R1-Zero 和 R1 是经过精心打磨的 “全新升级版”。

对于训练速度的讨论,网友们通过计算提出了疑问,按照每个梯度传播(grpo)步骤约 3 分钟来计算,训练速度似乎较慢。这也从侧面反映出高性能 RL 模型训练的巨大成本和时间投入,即使是像 DeepSeek 这样的行业领先者,在追求卓越性能的道路上也需要付出艰辛努力。

此外,关于 R1 的未来应用拓展,当被问到是否尝试将 RL 应用于形式化证明环境时,Daya Guo 透露团队已经在进行相关尝试,并且希望尽快向社区发布更好的模型。这一消息无疑让 AI 社区的从业者和爱好者们充满期待,若 R1 能在形式化证明领域取得突破,将为 AI 在数学、逻辑推理等硬核领域的应用开辟新的道路。

从 Daya Guo 的回应中,我们可以提炼出三大关键信号。首先,在技术定位上,RL 尚处于早期阶段,性能提升空间巨大,远未见顶,这意味着 DeepSeek 在未来有望在该领域实现更多技术突破;其次,验证逻辑上,团队通过跨领域测试泛化能力,拒绝 “记忆投机”,确保模型具备真正的智能推理能力;最后,在应用边界上,R1 正从语言模型向数学证明等高阶推理领域迈进,拓展 AI 的应用范畴。

DeepSeek R1 的出现,本身就已经在 AI 领域引发了轩然大波。其以极低成本打造出堪比 OpenAI o1 的开源 AI 模型,不仅让投资者对 AI 的获利能力以及尖端芯片的旺盛需求产生担忧,引发了美股科技股的震荡,也让全球 AI 从业者看到了新的可能性。而此次研究员的爆料,更是让我们看到了 DeepSeek 在技术研发上的持续投入和进取精神。在全球 AI 竞争日益激烈的今天,DeepSeek 凭借其独特的技术路线和创新能力,正逐渐崭露头角,有望成为推动 AI 技术发展的重要力量。

来源:人工智能学家

相关推荐