摘要:2025年9月22日晚,国产AI大模型DeepSeek迎来重要更新,升级至DeepSeek-V3.1-Terminus版本。此次更新不仅修复了用户反馈的中英文混杂、偶发异常字符等问题,还在推理能力、智能体工具使用等多个方面实现显著提升,部分测评成绩超越Gemi
2025年9月22日晚,国产AI大模型DeepSeek迎来重要更新,升级至DeepSeek-V3.1-Terminus版本。此次更新不仅修复了用户反馈的中英文混杂、偶发异常字符等问题,还在推理能力、智能体工具使用等多个方面实现显著提升,部分测评成绩超越Gemini 2.5 Pro,引发网友对后续版本的热切期待。
更新内容与开源情况
DeepSeek API文档、官方微信等均已正式确认本次更新。在保持模型原有能力的基础上,针对用户反馈的问题进行改进,具体包括:在语言一致性方面,缓解了中英文混杂、偶发异常字符等情况;在Agent能力方面,进一步优化了Code Agent与Search Agent的表现。目前,官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。同时,开源版本也已在Hugging Face(https://huggingface.co/deepseek-AI/DeepSeek-V3.1-Terminus )和ModelScope(https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus )上线。
性能提升显著
此次更新后,模型在多项测评中表现出色。在推理能力和智能体工具使用上,多个基准得到提升,尤其在Humanity“s Last Exam中,成绩提升幅度高达36.48%。在非Agent(Thinking模式)测评中,MMLU-Pro、GPQA-Diamond、Humanity”s Last Exam等多项基准测试成绩提升;在Agent相关测评中,与DeepSeek-V3.1相比,新模型在工具使用与Agent任务中的表现有较大提升,如BrowseComp从30.0提升至38.5,SimpleQA从93.4提升至96.8 ,SWE-bench Verified从66.0提升至68.4 ,SWE-bench Multilingual从54.5提升至57.8 ,Terminal-bench从31.3提升至36.7。并且,在Humanity's Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified评测中,胜过了Gemini 2.5 Pro。
Bug修复情况
此前,网友发现DeepSeek V3.1存在两大问题。一是输出中随机带有「极」字,导致其无法从事编程或对输出结构敏感的相关工作;二是中英文混杂问题,这也是LLM的常见毛病。此次更新明确已解决「偶发异常字符等情况」,经测试,此前会触发「极你太美」Bug的Prompt已无法复现该问题,说明此Bug可能已被修复;同时,中英文混杂问题也得到解决。
部分测评成绩下滑与网友期待
不过,并非全部基准测试成绩都得到提升,Codeforces、Aider-Polyglot、BrowseComp-zh测评成绩有小幅下降。尽管如此,新模型DeepSeek-V3.1-Terminus总体上进步明显。“Terminus”一词引发网友猜测,其在拉丁语中意为“终点”或“界限” ,有网友认为这可能象征着DeepSeek-V3.1是这个系列架构的终极版本,也有人觉得可能意味着模型在编程终端里的表现更好。此次更新也理所应当地引起了网友的关注,他们在线催更,期待DeepSeek-V4和DeepSeek-R2能带来更大的震撼。
以上文章由 AI 总结生成
来源:八卦娱乐一点号5