DeepSeek R1模型升级，思维深度跃升，幻觉率大幅下降！

摘要：DeepSeek公司近期宣布，其DeepSeek R1模型已经完成了新一轮的小版本升级，新版本命名为DeepSeek-R1-0528。此次升级不仅引起了业界的广泛关注，还带来了多项能力的提升。

DeepSeek公司近期宣布，其DeepSeek R1模型已经完成了新一轮的小版本升级，新版本命名为DeepSeek-R1-0528。此次升级不仅引起了业界的广泛关注，还带来了多项能力的提升。

据了解，在28日晚上，DeepSeek通过官方渠道突然发布消息，称DeepSeek R1模型的小版本试升级已经完成，并邀请用户前往官方网站、App及小程序进行测试。这一消息迅速在行业内传播开来，引发了众多用户的试用热潮。

与此同时，TechWeb也对新版DeepSeek-R1模型进行了亲测和用户试用体验的报道，指出新版模型在代码能力方面表现出色，但在写作幻觉方面仍有待改进。报道还提供了详细的测试链接，供读者进一步了解。

DeepSeek官方对DeepSeek-R1-0528的能力进行了详细介绍。新版本依然基于2024年12月发布的DeepSeek V3 Base模型，但在后训练过程中增加了更多的算力投入，使得模型的思维深度和推理能力得到了显著提升。

据官方透露，更新后的R1模型在数学、编程及通用逻辑等多个基准测评中取得了优异成绩，整体表现已接近国际顶尖模型，如o3和Gemini-2.5-Pro。特别是在AIME 2025测试中，新版模型的准确率从旧版的70%提升至87.5%，这一进步得益于模型在推理过程中思维深度的增强。

DeepSeek团队还利用DeepSeek-R1-0528的思维链后训练了Qwen3-8B Base，得到了DeepSeek-R1-0528-Qwen3-8B。该8B模型在数学测试AIME 2024中的表现仅次于DeepSeek-R1-0528，超越了Qwen3-8B，与Qwen3-235B相当。DeepSeek团队认为，这一思维链对于学术界推理模型的研究和工业界小模型的开发都具有重要意义。

除了推理能力的提升，新版DeepSeek R1还在其他方面进行了优化。针对“幻觉”问题，新版模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了约45%～50%，能够提供更准确、可靠的结果。同时，在创意写作方面，新版模型能够输出篇幅更长、结构内容更完整的长篇作品，写作风格也更加贴近人类偏好。

在工具调用方面，DeepSeek-R1-0528支持工具调用，但暂不支持在思考过程中进行工具调用。当前模型的Tau-Bench测评成绩与OpenAI o1-high相当，但与o3-High及Claude 4 Sonnet仍有差距。新版R1在前端代码生成、角色扮演等领域的能力也有所提升。

API方面，新版R1 API已同步更新，接口与调用方式保持不变。同时，新版API增加了Function Calling和JsonOutput的支持，并对max_tokens参数的含义进行了调整。现在，max_tokens用于限制模型单次输出的总长度（包括思考过程），默认为32K，最大为64K。API用户需及时调整max_tokens参数，以防输出被提前截断。

虽然官方网站、小程序、App端和API中的模型上下文长度仍为64K，但用户如有更长上下文长度的需求，可通过第三方平台调用上下文长度为128K的开源版本R1-0528模型。

在模型开源方面，DeepSeek-R1-0528与之前的DeepSeek-R1使用相同的base模型，仅改进了后训练方法。私有化部署时，用户只需更新checkpoint和tokenizer_config.json（tool calls相关变动）。模型参数为685B（其中14B为MTP层），开源版本上下文长度为128K（网页端、App和API提供64K上下文）。

此次开源仓库（包括模型权重）依然采用MIT License，并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

来源：ITBear科技资讯

标签：模型幻觉 deepseek deepseekr1 r1

本文地址：http://news.43b.com.cn/a/399105.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!