DeepSeek V3.1惊现“极”字Bug:AI模型稳定性之殇

B站影视 欧美电影 2025-08-28 16:09 1

摘要:近日,不少开发者在使用 DeepSeek V3.1 时发现,模型在生成文本时,会莫名其妙地跑出「极」「极速」或者「extreme」这些 token,而且出现的概率完全随机,让人摸不着头脑 。

近日,不少开发者在使用 DeepSeek V3.1 时发现,模型在生成文本时,会莫名其妙地跑出「极」「极速」或者「extreme」这些 token,而且出现的概率完全随机,让人摸不着头脑 。

起初,大家猜测可能是第三方服务商在模型量化、部署配置或硬件上的差异导致的,是个偶然的 Bug。毕竟,在复杂的技术应用中,不同的部署环境可能会对模型的表现产生一些影响。但随着实测的增多,问题的真相逐渐浮出水面:不止第三方 API,DeepSeek 官网同样也存在这个问题。

该版本采用了混合推理架构,将模型划分为 “思考模式”(deepseek - reasoner)与 “非思考模式”(deepseek - chat),一个模型同时支持这两种模式,用户可以随时切换,想慢慢分析就慢慢分析,想快速出结果也没问题,让使用体验更灵活,效率更高 。它还支持 128K 长上下文处理,这意味着其可以处理更长篇幅的文档和代码,并在回答内容上进一步增加信息,提供更多细节。

测试数据显示,DeepSeek V3.1 在编程、多任务理解等场景中表现突出。在 Aider 编程基准测试中,它的得分达到了 71.6%,超越了 Claude Opus4;在 SVGBench 成绩仅次于 GPT - 4.1 - mini;MMLU 多任务语言理解得分更是高达 88.5%,与 GPT - 5 持平。

DeepSeek V3.1 还引入了面向下一代国产芯片的 UE8M0 FP8 参数精度标准。该标准采用无符号、8 位指数设计,在相同硬件下显存需求降低 75%,量化误差减少,同时提升数据中心能效。目前,寒武纪 MLU370 - S4、思元 590/690 系列,以及海光、沐曦、摩尔线程等厂商的芯片已支持 FP8 计算;华为昇腾计划在 2025 年第四季度实现原生 FP8 支持。UE8M0 FP8 的推广有望推动国产芯片生态标准化,减少对英伟达、AMD 等国外硬件的依赖 。

知乎用户 @Fun10165 称,在调用 VolcEngine DeepSeek V3.1 帮忙整理一份物理试卷的时候,输入中包含了 “极板” 这些词,模型的输出中会莫名出现一些「极」字,如 “平行极电容器”,将原本正确的 “平行板电容器” 中的 “板” 字错误替换。还有人在腾讯新推出的 Codebuddy AI 编程工具中发现了类似的问题,这款工具会自行在 UI 界面里面添加 “极速赛车开奖”“极速电竞” 等 token,与正常的编程场景格格不入。

在翻译场景中,这个 Bug 同样会造成问题。翻译需要准确传达原文的意思,而 “极” 字的干扰会导致翻译结果出现偏差,无法准确表达源语言的含义。比如将一段英文翻译成中文时,“极” 字的突然出现可能会使翻译后的句子不符合中文的表达习惯,让使用者一头雾水 。

一种可能性是数据集污染。在模型训练过程中,数据集就像是模型的 “学习资料”,如果这些资料本身存在问题,那么模型自然也会学到错误的知识 。有可能在数据收集阶段,混入了大量包含 “极” 字的特殊文本,比如一些网络用语、广告文案或者特定领域的术语,而在数据清洗时又没有将其彻底过滤掉。这些 “脏数据” 被模型学习后,就可能导致在生成文本时,“极” 字不受控制地出现 。

模型在训练时 “偷懒” 也是原因之一。在训练过程中,模型会学习到各种语言模式和规律,以预测下一个可能出现的 token 。但有时候,模型可能会找到一些 “捷径”,当它遇到不确定的上下文时,会优先选择一些频繁出现或邻近的 token,从而导致「极」「extreme」这种奇怪的输出频繁出现 。在某些特定的上下文中,“极” 字的出现频率相对较高,模型就可能错误地将其作为一种常见的输出选择,即使在不应该出现的地方也会生成 。

解码概率分布偏移也是导致这个 Bug 的可能原因。大模型在生成文本时,是基于对每个 token 出现概率的计算来选择下一个输出的 token 。如果在训练或推理过程中,“极” 字对应的概率分布出现了异常,比如其出现的概率被错误地调高,那么模型就更有可能选择 “极” 字作为输出 。而 “极” 字的 token ID 为 2577,紧邻省略号 “……” 的 token ID 2576,这使得模型在解码时,有可能因为概率分布的微小偏移,将 “极” 字误选出来 。

在强化学习从人类反馈(RLHF)或从 AI 反馈(RLAIF)的对齐阶段也可能出现了偏差 。在这个阶段,模型需要学习与人类偏好对齐,以生成符合人类期望的文本 。如果奖励模型(Reward Model)存在偏见,或者对齐数据集被污染,就可能导致模型学到错误的生成模式 。标注者在标注数据时,可能对包含 “极” 字的回复给予了过高的评价,使得模型认为生成 “极” 字能够获得更高的奖励,从而在输出中频繁出现 。

模型量化或推理策略异常也可能诱发这个 Bug 。为了降低部署成本、提升推理速度,模型通常会进行量化处理,即将高精度的参数转换为低精度 。这个过程中,如果「极」字对应的神经元权重在量化中被错误处理,可能导致其激活阈值大幅降低,原本需强上下文信号才会激活的神经元,现在微弱信号即可触发,进而错误生成「极」字 。此外,采样策略也可能放大这种异常,如果使用了随机性较高的采样策略,会增加模型输出分布中微小异常被选中的概率,使得 “极” 字更容易被生成 。

去年,谷歌的 Gemini 模型在代码生成场景中就出现过 “自我否定无限循环” 的 Bug 。当时,有开发者发现,Gemini 在生成代码时,会不断地对自己生成的代码进行否定和修改,陷入一个无限循环的状态,导致无法生成有效的代码 。这个问题被曝光后,引起了广泛的关注和讨论,谷歌也迅速对此进行了调查和修复 。

OpenAI 的 ChatGPT 也未能幸免,其记忆体系曾出现异常,导致用户历史上下文丢失 。许多用户在与 ChatGPT 进行多轮对话时,发现模型会突然忘记之前的对话内容,无法根据上下文进行准确的回答,这给用户的使用体验带来了很大的影响 。OpenAI 社区中大量用户反馈了这一问题,OpenAI 也采取了一系列措施来解决这个问题,包括优化模型的记忆机制和加强对用户数据的管理 。

这些案例都表明,大模型的稳定性是整个 AI 领域都面临的一个普遍痛点 。随着 AI 技术的不断发展和应用,模型的规模和复杂度越来越高,出现稳定性问题的概率也相应增加 。而一旦出现问题,不仅会影响用户的使用体验,还可能对相关的业务和应用造成严重的损失 。因此,如何提高大模型的稳定性,成为了 AI 研究人员和开发者们亟待解决的重要问题 。

来源:科技不沉默

相关推荐