DeepSeek更新！速览DeepSeek V3.1新特性

摘要：自从今年1月底 DeepSeek-R1模型发布以来，DeepSeek 就一直以小幅更新的方式低调更新着模型，先是在今年三月份更新了 DeepSeek_V3_0324模型，然后又在五月底更新了 DeepSeek-R1-0528模型。两次更新虽说在功能上或性能

又是在毫无征兆的情况下，距离 DeepSeek-V3-0324模型发布近半年之后，全新一代的 DeepSeek-V3.1正式上线。

自从今年1月底 DeepSeek-R1模型发布以来，DeepSeek 就一直以小幅更新的方式低调更新着模型，先是在今年三月份更新了 DeepSeek_V3_0324模型，然后又在五月底更新了 DeepSeek-R1-0528模型。两次更新虽说在功能上或性能上有明显进步，但对于我们中国大模型之光——“深度求索公司”来说小幅进步就是性能进步的还不够明显，因此两次更新都没有更新模型的版本号。而这次 DeepSeek-V3.1 模型的发布也标志着模型性能迎来重大提升，同时这也是对 OpenAI GPT-5模型的强有力回击。

毫不夸张的说 DeepSeek-V3.1就是今年以来 DeepSeek 模型的最大更新。本期内容笔者将分享 DeepSeek-V3.1模型的调用方法及核心特性，以及秉持着科学精神的大模型爱好者对 DeepSeek-V3.1模型的详细测评。

根据官方介绍，在 DeepSeek 官网对话时只要不勾选深度思考就默认调用的是 V3.1模型。不过根据简单的对话测试，新模型的知识库目前只更新到2024年7月。

同样的通过 OpenWebUI API 调用的 DeepSeek-Chat 模型也已经全面更新至 V3.1模型。

根据官方给出的公告本次更新大幅提升了上下文长度升级至128K 并得到了测评博主们的验证。

作为今年1月以来 DeepSeek 模型的最大版本更新，DeepSeek-V3.1模型并不仅仅是提升了上下文、更新了知识库这么简单。虽然更多模型的评测信息官方还未放出，但笔者第一时间就围绕 DeepSeek-V3.1模型的编程和 Agent 性能进行了测试。根据实测结果，DeepSeek-V3.1模型顺应了当前大模型能力发展的主流方向，在编程和 Agent 开发方面迎来了巨大的进步。编程方面无论是编程意愿、可视化效果、物理遵循能力等各方面都几乎和 Claude4.1持平。Agent 性能更是取得长足进步，无论是深度网络信息检索 DeepResearch 还是接口调用搭建 Agent 都表现出了和 Claude4.1几乎持平的性能。具体的测评信息如下。

总体来说相比 Claude 4.1 Opus，DeepSeek-V3.1模型在编程准确率和前端展示效果上和 Claude4.1 持平基本持平，而在物理跟随能力和代码的健壮程度上弱于 Claude 4.1 Opus 模型。不过无论如何 DeepSeek-V3.1模型的编程性能肯定位列世界顶尖编程大模型之列。

下面展示两个评测示例：

经典入门级编程需求——太阳系行星模拟器

提示词如下:

请生成一个独立的HTML文件，其中包含一个可交互的太阳系模拟器。所有代码应包含在文件内，不要引用外部库或文件。该模拟器应具备以下功能：## 视觉与场景* **背景**：深色背景，模拟宇宙空间。* **恒星**：中心应有一个发光的大型黄色球体代表太阳。* **行星**：围绕太阳绘制八颗主要的行星（水星、金星、地球、火星、木星、土星、天王星、海王星），每颗行星的颜色和相对大小应有视觉区分度。土星应有环。* **轨道**：为每颗行星绘制椭圆（或圆形）轨道，以同心圆或接近同心圆的形式环绕太阳，清晰地显示它们的运动路径。* **标题**：页面顶部中央显示“Solar System Simulation”标题。## 模拟功能* **行星运动**： * 所有行星应以各自的速度沿其轨道围绕太阳公转。 * 行星的公转速度应与其实际太阳系中的相对速度成比例，越靠近太阳的行星移动越快。* **初始状态**：加载时，行星应处于其预设的初始位置，并可能处于暂停状态或以默认速度开始运行。## 交互与控制面板* **控制面板**：在模拟区域下方有一个水平布局的控制面板，包含以下交互元素： * **“Start”按钮**：点击后开始或恢复模拟。 * **“Pause”按钮**：点击后暂停模拟。 * **“Reset”按钮**：点击后将所有行星重置到其初始位置和默认速度。 * **“Speed”滑块**：一个滑块控件，允许用户调整模拟的速度，范围从慢速到快速（例如，从1倍速到5倍速，并显示当前的倍数）。## 技术考量* 使用HTML作为基本结构。* 使用CSS进行基本布局、背景、按钮和行星的样式设置。* 核心模拟功能必须使用JavaScript实现，包括： * 绘制太阳、行星和轨道（推荐使用 `` 元素进行绘制）。 * 计算行星的实时位置以模拟公转。 * 处理“Start”、“Pause”、“Reset”按钮的点击事件。 * 根据“Speed”滑块的值调整模拟的帧率或步长。* 确保动画流畅，行星运动轨迹平滑。

如下分别是 DeepSeek-V3.1和 Claude4 Opus 的生成结果，相比较 DeepSeek-V3.1的展示效果更直观：

GPT 相关案例——咖啡售卖网站主页

提示词如下：

请为一项服务生成一个精美、逼真的着陆页(Landing52621这项能家写在为经楼办啡着好者提供每月200美设备租赁和指导。目标受众是湾区(BayArea)的中年人.。他们可能从事科技行业，受过良好教育，拥有可支配并且对咖啡的艺术和科学充满热情。请优化设计以促成6个月订阅的转化。请使用Canvas功能进行编程。

如下分别是 DeepSeek-V3.1和 Claude4 Opus 的生成结果，能够看出右侧 Claude 4.1模型的设计略显平淡，而 DeepSeek-V3.1模型的编程效果会更加现代化和专业，信息更加丰富且富有条理。

不过在其它的案例比如音频制作器（逻辑能力更强）、模拟烟筒爆炸（编程物理能力模拟）和一次性编写超长段代码（长代码能力），DeepSeek-V3.1模型的表现就不如 Claude4.1了。

Agent 性能的评测参考了 B 站评测 Up 主的相关测试，博主将 DeepSeek-V3.1接入了自研的复杂知识库检索系统架构中。

据博主介绍以往的处理流程中只有 GPT-5模型 和 Claude 4.1 Opus 模型 能够完全字宗自主处理复杂问题而没有 Bug。当博主将基座模型切换为 DeepSeek-V3.1模型之后，无论是用户意图识别准确率、还是检索关键词提取的准确率.无论是调用 Agent 准确率还是长文档编写性能都取得了非常不错的效果，可以说 DeepSeek-V3.1模型的 Agent 性能同样和 GPT-5以及 Claude 4.1 Opus 模型相差无几。

DeepSeek-V3.1的发布再次宣告深度求索公司在大模型领域的核心地位，同时更验证了一个公司只有脚踏实地的技术沉淀才能做到屹立于强敌之林而不倒。本篇分享是笔者对8月19日发布的 DeepSeek-V3.1模型的特性解读及详细测评，笔者的《深入浅出 LangChain&LangGraph》系列文章本周也会继续更新，保证大家看完一定能够掌握 LangChain&LangGraph 的开发能力，大家感兴趣可关注笔者掘金账号和专栏，大模型真好玩 ，免费获得笔者工作实践中的大模型相关资料分享。

来源：墨码行者

标签： claude agent deepseek opus 行星

本文地址：http://news.43b.com.cn/a/993716.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!