DeepSeek发布“终极版”模型,大语言模型再进化

B站影视 欧美电影 2025-09-24 06:55 1

摘要:2025年9月22日晚间,大语言模型领域又迎来重磅消息——DeepSeek在官方API平台发布了DeepSeek-V3.1-Terminus模型,并迅速开源,引发行业内外广泛关注。

2025年9月22日晚间,大语言模型领域又迎来重磅消息——DeepSeek在官方API平台发布了DeepSeek-V3.1-Terminus模型,并迅速开源,引发行业内外广泛关注。

从命名来看,“Terminus”在拉丁语里意为终点、界限,这一命名充满深意。或许它象征着DeepSeek-V3.1系列架构已达成熟完善阶段,是当前技术路径的集大成者;又或许意味着这是传统架构的收官之作,后续将开启全新技术方向或架构创新。也有网友猜测,它代表着模型在编程终端等方面表现更优。不过,确切含义还有待官方揭晓。

此次发布的模型,是基于用户对DeepSeek-V3.1的反馈进行的升级优化。此前版本存在中英文混杂、偶发异常字符等问题,严重影响使用体验。例如,在代码生成场景中,“极”“極”“extreme”等字样会随机出现,导致编译失败;在翻译小语种时,也会出现中、英、俄等多语言混用情况。而DeepSeek-V3.1-Terminus成功修复了这些问题,经测试,无论是用网传的“高危”提示词,还是进行多语种翻译,都不再出现上述Bug,语言一致性得到极大提升。

除了修复Bug,DeepSeek-V3.1-Terminus在能力提升方面也可圈可点。在编程能力上,当被要求模拟小球弹跳效果时,模型输出的网页不仅风格简约,而且对重力、摩擦力的模拟十分逼真,动画效果自然,展现出强大的编程与物理知识理解能力。搜索智能体能力方面同样出色,在推荐适合新手阳台盆栽的植物时,它能综合“阳台盆栽”“生长快”“可生食”“对儿童安全”等多个条件筛选,给出的答案周全可靠,还附上播种技巧,可读性高。

从基准测试结果来看,DeepSeek-V3.1-Terminus在多个项目实现性能提升。非Agent测评中,MMLU-Pro从84.8提升到85.0,GPQA-Diamond从80.1提升到80.7,在考察专家级高难度知识和多模态、深度推理能力的HLE测试上,更是从15.9大幅跃升至21.7。Agent测评里,网页浏览、简单问答和多项编程测试等表现均有小幅进步。当然,也有部分测试成绩出现小幅度下滑,如Codeforces从2091降至2046 ,BrowseComp-zh从49.2降至45.0,但整体瑕不掩瑜。

目前,DeepSeek官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。随着这一“终极版”模型的发布,DeepSeek在大语言模型市场的竞争力进一步增强。此前已有外媒报道,DeepSeek预计今年年底推出Agent模型,不难想象,未来DeepSeek还会给我们带来更多惊喜,大语言模型领域的竞争也将愈发激烈。

来源:柒言文馆

相关推荐