DeepSeek深夜升级R1！幻觉砍半代码封神，用户却喊：R2别装死

摘要：5月28日凌晨，当大多数开发者还在梦乡，DeepSeek官网悄然上线了新版R1模型（DeepSeek-R1-0528）。没有发布会，没有通稿，只有一句简短通知：“开启深度思考，体验升级版。”这种“低调到尘埃”的风格，却藏不住硬核升级：

网络图片，谨慎参考

5月28日凌晨，当大多数开发者还在梦乡，DeepSeek官网悄然上线了新版R1模型（DeepSeek-R1-0528）。没有发布会，没有通稿，只有一句简短通知：“开启深度思考，体验升级版。”
这种“低调到尘埃”的风格，却藏不住硬核升级：

数学能力暴走：在顶级数学测试AIME 2025中，准确率从70%飙至87.5%，单题思考量翻倍（12K→23K tokens），解题深度逼近人类奥赛选手；代码封神：在Live CodeBench平台，性能碾压Claude 4，73.3% Pass@1得分直逼OpenAI o3-high，千行代码“一次生成无bug”；“幻觉”砍半：改写、摘要等场景的胡编率降低45%-50%，从“满嘴跑火车”到“句句有出处”。

网友实测后惊呼：“以前像ChatGPT早期版，现在像GPT-4o亲兄弟！”

网络图片，谨慎参考

“We want R2!!!”
“R2搞快点，别装聋作哑！”

这种“一边夸一边骂”的荒诞场景，背后是用户对下一代模型的饥渴期待：

传闻中的“核弹级”R2：1.2万亿参数、华为Ascend芯片加持、成本比GPT-4低97%；多模态悬念：能否处理图像/视频？能否终结“中文模型弱多模态”的魔咒？官方“拖字诀”：3月曾辟谣“R2发布是假消息”，5月又用R1升级转移视线。

一位开发者调侃：“DeepSeek怕不是把R2改名叫R1更新了？”

网络图片，谨慎参考

基座不变，暴力提效
沿用2024年的V3基础模型，但通过强化学习+思维链蒸馏，将8B小模型（DeepSeek-R1-Qwen3-8B）性能拉到接近235B巨头的水平——用“算法杠杆”撬动算力限制。工具调用“暗度陈仓”
新R1支持函数调用（Function Calling），在航空、零售任务中达到OpenAI o1水平。虽未明说，但被视作R2多模态交互的“前哨战”。开源霸权
坚持MIT协议开源，允许企业免费商用。网友戏称：“OpenAI在收订阅费，DeepSeek在收人心。”

网络图片，谨慎参考

性能对标国际，用户却永不满足：87.5%的AIME得分已超旧版GPT-4，但网友仍嫌“没碾压o3”；成本革命VS生态短板：华为芯片训练效率超英伟达A100集群91%，但工具生态远落后于OpenAI；“挤牙膏”式创新遭反噬：用户要的是代际跨越（R2），而非小修小补（R1更新）。

一位投资人直言：“DeepSeek在赌——用R1拖住对手，用R2憋个大招。”