DeepSeek-R1登《自然》封面:全球首个独立验证大模型诞生

B站影视 内地电影 2025-09-19 07:42 1

摘要:9月18日,据第一财经,国际权威期刊《自然》(Nature)以封面文章形式发表了由中国人工智能公司DeepSeek团队完成的大语言模型研究论文《DeepSeek-R1:通过强化学习激发大模型推理能力》。论文通讯作者、DeepSeek创始人梁文锋在接受采访时表示

潮新闻客户端 记者 楼纯

9月18日,据第一财经,国际权威期刊《自然》(Nature)以封面文章形式发表了由中国人工智能公司DeepSeek团队完成的大语言模型研究论文《DeepSeek-R1:通过强化学习激发大模型推理能力》。论文通讯作者、DeepSeek创始人梁文锋在接受采访时表示,此次发表的版本相比2025年1月的初版论文,首次完整披露了模型训练的技术细节,并正面回应了学术界对“模型是否依赖蒸馏技术”的核心质疑。这标志着中国AI研究首次通过全球顶级学术期刊的严格同行评审,DeepSeek-R1也成为全球首个经过独立学术验证的主流大语言模型。“我们希望通过开源和学术合作,推动AI技术普惠化,让更多研究者能基于R1开展创新。”

作为开源领域的“现象级模型”,DeepSeek-R1自2025年1月发布以来,已在HuggingFace平台累计获得超1090万次下载,成为全球开发者使用最广泛的推理模型之一。其核心突破在于,通过纯强化学习(RL)机制让模型自主生成复杂推理能力,无需依赖人工标注的思维链数据,这一方法被《自然》评价为“开启了大模型训练范式的革命”。此次新版论文则进一步揭开了其技术面纱,从训练细节到质疑回应均进行了系统性呈现。

在技术细节披露方面,论文首次公开了DeepSeek-R1的训练成本与技术架构:团队使用512张H800GPU,耗时80小时完成模型训练,总成本约29.4万美元(约合人民币209.5万元),仅为国际同类模型的5%-10%;模型基础数据包含数学、编程、STEM、逻辑、通用5大类,全部来自互联网公开资源,截止时间为2024年7月(早于主流推理模型发布时间),从源头上排除了“有意蒸馏”的可能性;为避免基准测试数据污染,团队在预训练阶段剔除了约600万条潜在污染样本,并通过独立第三方机构验证,确保训练数据与测试数据无重叠。

针对学术界对“模型是否间接使用OpenAI技术”的质疑,论文从三方面进行了明确澄清:基础模型DeepSeek-V3Base的训练数据中可能包含GPT-4生成的互联网内容,但团队未采用任何“冷却阶段”(CoolingPhase)的监督蒸馏技术;数据截止时间(2024年7月)早于OpenAI推理模型GPT-4o(2024年10月发布),技术路径不存在“逆向工程”可能性;DeepSeek-R1采用自主研发的GRPO(群体相对策略优化)框架,仅通过奖励最终答案正确性引导模型生成推理过程,未引入任何外部模型的推理轨迹作为训练信号。

同时,论文公布的实测数据显示,DeepSeek-R1在关键领域已达到国际领先水平:在数学竞赛AIME2024中正确率达79.8%,与OpenAI的o1-1217模型持平;在代码竞赛Codeforces中得分为2029分,接近人类专家水平;在公开基准测试中,其安全性表现超越Claude-3.7-Sonnet、GPT-4o等模型,开源版本的风险控制能力仍居行业中上游。此外,团队同步发布了轻量化模型R1-Micro(参数规模仅1.3B),为学术界提供了低成本研究工具。

这一成果引发学术界与产业界广泛关注,多位权威专家及机构从不同维度进行了解读。在学术价值层面,《自然》在社论中指出,DeepSeek-R1的发表填补了行业空白,目前全球主流大模型均未经过独立同行评审,而这一过程通过8位国际专家的5个月严格审查,最终形成64页的审稿报告与作者回复,为AI研究建立了“可验证、可复现”的新标准。HuggingFace机器学习工程师LewisTunstall表示:“R1的方法论正在被全球团队借鉴,其通过纯强化学习激发推理能力的路径,为解决数学、科学等复杂任务提供了全新范式。”俄亥俄州立大学人工智能研究员HuanSun则补充道:“论文通过严格的去污染措施证明了模型的真实性,这对学术界建立信任至关重要。R1的开源代码已被引用超300次,成为2025年最具影响力的AI研究之一。”

从产业影响来看,行业分析人士认为,DeepSeek-R1的突破将推动大模型训练范式的变革。其29.4万美元的训练成本仅为GPT-4o的1/20,这意味着中小型机构也能参与前沿模型研发,打破了“算力垄断”的行业现状;而模型在代码生成、科学推理等领域的表现,已被用于生物医药、材料科学等领域的自动化研究,例如加速药物分子设计流程。

不过,论文同时指出了当前模型的局限性。在多语言能力上,模型在处理非英语查询时存在语言混合问题,需进一步优化跨语言推理能力;在工具整合方面,尚未实现与搜索引擎、计算器等外部工具的深度结合,可能限制其在实时信息处理场景的应用。《自然》审稿人特别强调,需建立更透明的风险控制框架,避免模型被用于生成有害内容。

来源:钱江晚报

相关推荐