知乎直答接入DeepSeekR1-0528最新版,推理能力进一步提升

B站影视 港台电影 2025-05-31 21:53 2

摘要:5 月 28 日,DeepSeek 上线了 R1 最新版本。目前,知乎直答现已全量接入 DeepSeek R1-0528 版,该版本显著提升了思维深度与推理能力,结合知乎内容优势,知乎直答的用户搜索体验将得到进一步提升。

5 月 28 日,DeepSeek 上线了 R1 最新版本。目前,知乎直答现已全量接入 DeepSeek R1-0528 版,该版本显著提升了思维深度与推理能力,结合知乎内容优势,知乎直答的用户搜索体验将得到进一步提升。

知名独立 AI 基准测试和分析机构 Artificial Analysis 发布报告并提到,DeepSeek 凭借新版 R1 超越 xAI、Meta 和 Anthropic,成为与谷歌并列的全球第二大 AI 实验室。在编程能力上,DeepSeek-R1-0528 以 59 分居于并列第二位,仅次于 OpenAI o4-mini(高版本)的 63 分。

知乎答主 @toyama nao 在知乎上提到,DeepSeek-R1 0528 版本的逻辑成绩有 14.4% 的大幅提升,其中模型使用成本最亮眼,只有 OpneAI o3 (high) 的 5%,一起来看看他的完整回答吧~

短的结论:旧日的挑战者再上擂台

基本信息:

成本:16 块每百万

速度:约 36 字每秒

平均长度:约 20480 字

平均耗时: 558 秒

逻辑成绩:

表格为了突出对比关系,有一定裁剪,不是完整排序。

测试方式:参见 大语言模型-逻辑能力横评 25-05 Update

这次测试基于 6 月题目,已经增加 #38 题。所以所有模型的分数相比 5 月有变动。

编程成绩:

编程语言分布:

编程消耗:

前几天传言 V3 要发布更新,结果是虚晃一枪,今天突然放出 R1 的「小版本」才是主菜。鉴于 DeepSeek 有「谦虚」的传统,这次的小版本其实并不小。还记得 R1 刚发布时位列推理模型第二,仅次于 O1 (medium)。时隔 5 个月,曾经的 R1 先后被 8 个模型超过,甚至险些被非推理模型 Claude Opus 4 追上。

这不,新版 R1 就来了(以下称新版)。从成绩来看新版重新回到推理世界第一梯队,在他前面的只有 OpenAI 和 Anthropic 两家的顶级模型。并且新版的性价比依然高,比他强的没他便宜,比他便宜的没他强。成功卡位。

3 月 V3 更新时,靠着对 R1 的蒸馏加增加输出长度,取得了 30% 的能力飞跃,代价是输出长度暴涨近 3 倍。这样的手段在新版 R1 上又复现了一遍,R1 的输出长度较旧版增长 2 倍,所以使用成本也基本翻倍。

优势:

与旧版相比,所有类型题目都进步或持平。涉及短期记忆(如 #4拧魔方,#36数独)以及严格指令遵循(如 #16 旅游规划,#20 桌游模拟,#30 日记整理)新旧版几乎没有差异,各类错误情况相似。计算能力则显著改善,如 #22 连续计算,#28 特殊规则计算, #38 函数交点,旧版因为幻觉过重,通常在中途搞错数字,导致最后结果误差极大。新版得益于在幻觉上的改进,计算正确率大幅提高。但过于复杂的数值计算,新版依然保有少量误差,而顶级 o3/o4 mini 可以多 pass 稳定无误差。

编程方面,新版也超过旧版 10.4% ,与逻辑能力提升基本相当。代码生成新旧版相差不大,平均 175 行。但注释率从垫底的 1.7% 大幅跃升至 6.3% ,因此纯代码部分,新版要略精简。

劣势:

在涉及人类直觉问题如 #24 数字规律,#35 拼图问题,新版无改进,落后于同级别的 o3/o4 mini/sonnet 4 等。在涉及空间感的问题,如 #4 拧魔方,#37 物体投影等问题,则是 o3/o4 mini 大幅领先 R1 。

受上下文幻觉的拖累,编码整体可用性提升有限,代码中常见错误是少写括号,篡改题目要求的入参格式等。如果人工修复这些「小问题」,则新版的编程分数会上探到 79 ,基本与 Sonnet 4 持平。

新版的不稳定性依然很高,逻辑部分中位数差 10%,编程问题更是差到 27% 。在全部 30 道编程题目中,仅 5 题新版可以多 pass 稳定输出,其他 25 题多 pass 分差极大,甚至是在 0 分到满分之间徘徊。再考虑 R1 官方的 API 速度大幅落后其他模型,终端用户很难多遍重试,新版的实际口碑恐怕也会两极分化。

仍然有极少量问题中途切换到英文推理。

赛博史官曰:

既然DeepSeek连续两次释放「小更新」,那是不是还藏着真正的大招呢。R1 明明是个底子很好的模型,却总因为幻觉和各种瑕疵导致在部分专业领域使用受限,甚至新版也存在没有完全解决的问题。彻底超越世界顶级模型只能寄希望于后续模型了。

来源:小贺看科技

相关推荐