国产AI大模型DeepSeek更新至V3.1-Terminus版本，多项能力提升

摘要：2025年9月22日晚，国产AI大模型DeepSeek迎来重要更新，升级至DeepSeek-V3.1-Terminus版本。此次更新不仅修复了用户反馈的中英文混杂、偶发异常字符等问题，还在推理能力、智能体工具使用等多个方面实现显著提升，部分测评成绩超越Gemi

2025年9月22日晚，国产AI大模型DeepSeek迎来重要更新，升级至DeepSeek-V3.1-Terminus版本。此次更新不仅修复了用户反馈的中英文混杂、偶发异常字符等问题，还在推理能力、智能体工具使用等多个方面实现显著提升，部分测评成绩超越Gemini 2.5 Pro，引发网友对后续版本的热切期待。

更新内容与开源情况

DeepSeek API文档、官方微信等均已正式确认本次更新。在保持模型原有能力的基础上，针对用户反馈的问题进行改进，具体包括：在语言一致性方面，缓解了中英文混杂、偶发异常字符等情况；在Agent能力方面，进一步优化了Code Agent与Search Agent的表现。目前，官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。同时，开源版本也已在Hugging Face（https：//huggingface.co/deepseek-AI/DeepSeek-V3.1-Terminus ）和ModelScope（https：//modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus ）上线。

性能提升显著

此次更新后，模型在多项测评中表现出色。在推理能力和智能体工具使用上，多个基准得到提升，尤其在Humanity“s Last Exam中，成绩提升幅度高达36.48%。在非Agent（Thinking模式）测评中，MMLU-Pro、GPQA-Diamond、Humanity”s Last Exam等多项基准测试成绩提升；在Agent相关测评中，与DeepSeek-V3.1相比，新模型在工具使用与Agent任务中的表现有较大提升，如BrowseComp从30.0提升至38.5，SimpleQA从93.4提升至96.8 ，SWE-bench Verified从66.0提升至68.4 ，SWE-bench Multilingual从54.5提升至57.8 ，Terminal-bench从31.3提升至36.7。并且，在Humanity's Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified评测中，胜过了Gemini 2.5 Pro。

Bug修复情况

此前，网友发现DeepSeek V3.1存在两大问题。一是输出中随机带有「极」字，导致其无法从事编程或对输出结构敏感的相关工作；二是中英文混杂问题，这也是LLM的常见毛病。此次更新明确已解决「偶发异常字符等情况」，经测试，此前会触发「极你太美」Bug的Prompt已无法复现该问题，说明此Bug可能已被修复；同时，中英文混杂问题也得到解决。

部分测评成绩下滑与网友期待

不过，并非全部基准测试成绩都得到提升，Codeforces、Aider-Polyglot、BrowseComp-zh测评成绩有小幅下降。尽管如此，新模型DeepSeek-V3.1-Terminus总体上进步明显。“Terminus”一词引发网友猜测，其在拉丁语中意为“终点”或“界限” ，有网友认为这可能象征着DeepSeek-V3.1是这个系列架构的终极版本，也有人觉得可能意味着模型在编程终端里的表现更好。此次更新也理所应当地引起了网友的关注，他们在线催更，期待DeepSeek-V4和DeepSeek-R2能带来更大的震撼。

以上文章由 AI 总结生成

来源：八卦娱乐一点号5

标签：模型 agent deepseek h 模型deepseek

本文地址：http://news.43b.com.cn/a/1376264.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!