知乎直答接入DeepSeekR1-0528最新版，推理能力进一步提升

摘要：5 月 28 日，DeepSeek 上线了 R1 最新版本。目前，知乎直答现已全量接入 DeepSeek R1-0528 版，该版本显著提升了思维深度与推理能力，结合知乎内容优势，知乎直答的用户搜索体验将得到进一步提升。

5 月 28 日，DeepSeek 上线了 R1 最新版本。目前，知乎直答现已全量接入 DeepSeek R1-0528 版，该版本显著提升了思维深度与推理能力，结合知乎内容优势，知乎直答的用户搜索体验将得到进一步提升。

知名独立 AI 基准测试和分析机构 Artificial Analysis 发布报告并提到，DeepSeek 凭借新版 R1 超越 xAI、Meta 和 Anthropic，成为与谷歌并列的全球第二大 AI 实验室。在编程能力上，DeepSeek-R1-0528 以 59 分居于并列第二位，仅次于 OpenAI o4-mini（高版本）的 63 分。

知乎答主 @toyama nao 在知乎上提到，DeepSeek-R1 0528 版本的逻辑成绩有 14.4% 的大幅提升，其中模型使用成本最亮眼，只有 OpneAI o3 (high) 的 5%，一起来看看他的完整回答吧～

短的结论：旧日的挑战者再上擂台

基本信息：

成本：16 块每百万

速度：约 36 字每秒

平均长度：约 20480 字

平均耗时： 558 秒

逻辑成绩：

表格为了突出对比关系，有一定裁剪，不是完整排序。

测试方式：参见大语言模型-逻辑能力横评 25-05 Update

这次测试基于 6 月题目，已经增加 #38 题。所以所有模型的分数相比 5 月有变动。

编程成绩：

编程语言分布：

编程消耗：

前几天传言 V3 要发布更新，结果是虚晃一枪，今天突然放出 R1 的「小版本」才是主菜。鉴于 DeepSeek 有「谦虚」的传统，这次的小版本其实并不小。还记得 R1 刚发布时位列推理模型第二，仅次于 O1 (medium)。时隔 5 个月，曾经的 R1 先后被 8 个模型超过，甚至险些被非推理模型 Claude Opus 4 追上。

这不，新版 R1 就来了（以下称新版）。从成绩来看新版重新回到推理世界第一梯队，在他前面的只有 OpenAI 和 Anthropic 两家的顶级模型。并且新版的性价比依然高，比他强的没他便宜，比他便宜的没他强。成功卡位。

3 月 V3 更新时，靠着对 R1 的蒸馏加增加输出长度，取得了 30% 的能力飞跃，代价是输出长度暴涨近 3 倍。这样的手段在新版 R1 上又复现了一遍，R1 的输出长度较旧版增长 2 倍，所以使用成本也基本翻倍。

优势：

与旧版相比，所有类型题目都进步或持平。涉及短期记忆（如 #4拧魔方，#36数独）以及严格指令遵循（如 #16 旅游规划，#20 桌游模拟，#30 日记整理）新旧版几乎没有差异，各类错误情况相似。计算能力则显著改善，如 #22 连续计算，#28 特殊规则计算， #38 函数交点，旧版因为幻觉过重，通常在中途搞错数字，导致最后结果误差极大。新版得益于在幻觉上的改进，计算正确率大幅提高。但过于复杂的数值计算，新版依然保有少量误差，而顶级 o3/o4 mini 可以多 pass 稳定无误差。

编程方面，新版也超过旧版 10.4% ，与逻辑能力提升基本相当。代码生成新旧版相差不大，平均 175 行。但注释率从垫底的 1.7% 大幅跃升至 6.3% ，因此纯代码部分，新版要略精简。

劣势：

在涉及人类直觉问题如 #24 数字规律，#35 拼图问题，新版无改进，落后于同级别的 o3/o4 mini/sonnet 4 等。在涉及空间感的问题，如 #4 拧魔方，#37 物体投影等问题，则是 o3/o4 mini 大幅领先 R1 。

受上下文幻觉的拖累，编码整体可用性提升有限，代码中常见错误是少写括号，篡改题目要求的入参格式等。如果人工修复这些「小问题」，则新版的编程分数会上探到 79 ，基本与 Sonnet 4 持平。

新版的不稳定性依然很高，逻辑部分中位数差 10%，编程问题更是差到 27% 。在全部 30 道编程题目中，仅 5 题新版可以多 pass 稳定输出，其他 25 题多 pass 分差极大，甚至是在 0 分到满分之间徘徊。再考虑 R1 官方的 API 速度大幅落后其他模型，终端用户很难多遍重试，新版的实际口碑恐怕也会两极分化。

仍然有极少量问题中途切换到英文推理。

赛博史官曰：

既然DeepSeek连续两次释放「小更新」，那是不是还藏着真正的大招呢。R1 明明是个底子很好的模型，却总因为幻觉和各种瑕疵导致在部分专业领域使用受限，甚至新版也存在没有完全解决的问题。彻底超越世界顶级模型只能寄希望于后续模型了。

来源：小贺看科技

标签：知乎推理 sonnet 接入 o4

本文地址：http://news.43b.com.cn/a/429728.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!