DeepSeek V3.1惊现“极”字Bug：AI模型稳定性之殇

摘要：近日，不少开发者在使用 DeepSeek V3.1 时发现，模型在生成文本时，会莫名其妙地跑出「极」「极速」或者「extreme」这些 token，而且出现的概率完全随机，让人摸不着头脑。

近日，不少开发者在使用 DeepSeek V3.1 时发现，模型在生成文本时，会莫名其妙地跑出「极」「极速」或者「extreme」这些 token，而且出现的概率完全随机，让人摸不着头脑。

起初，大家猜测可能是第三方服务商在模型量化、部署配置或硬件上的差异导致的，是个偶然的 Bug。毕竟，在复杂的技术应用中，不同的部署环境可能会对模型的表现产生一些影响。但随着实测的增多，问题的真相逐渐浮出水面：不止第三方 API，DeepSeek 官网同样也存在这个问题。

该版本采用了混合推理架构，将模型划分为 “思考模式”（deepseek - reasoner）与 “非思考模式”（deepseek - chat），一个模型同时支持这两种模式，用户可以随时切换，想慢慢分析就慢慢分析，想快速出结果也没问题，让使用体验更灵活，效率更高。它还支持 128K 长上下文处理，这意味着其可以处理更长篇幅的文档和代码，并在回答内容上进一步增加信息，提供更多细节。

测试数据显示，DeepSeek V3.1 在编程、多任务理解等场景中表现突出。在 Aider 编程基准测试中，它的得分达到了 71.6%，超越了 Claude Opus4；在 SVGBench 成绩仅次于 GPT - 4.1 - mini；MMLU 多任务语言理解得分更是高达 88.5%，与 GPT - 5 持平。

DeepSeek V3.1 还引入了面向下一代国产芯片的 UE8M0 FP8 参数精度标准。该标准采用无符号、8 位指数设计，在相同硬件下显存需求降低 75%，量化误差减少，同时提升数据中心能效。目前，寒武纪 MLU370 - S4、思元 590/690 系列，以及海光、沐曦、摩尔线程等厂商的芯片已支持 FP8 计算；华为昇腾计划在 2025 年第四季度实现原生 FP8 支持。UE8M0 FP8 的推广有望推动国产芯片生态标准化，减少对英伟达、AMD 等国外硬件的依赖。

知乎用户 @Fun10165 称，在调用 VolcEngine DeepSeek V3.1 帮忙整理一份物理试卷的时候，输入中包含了 “极板” 这些词，模型的输出中会莫名出现一些「极」字，如 “平行极电容器”，将原本正确的 “平行板电容器” 中的 “板” 字错误替换。还有人在腾讯新推出的 Codebuddy AI 编程工具中发现了类似的问题，这款工具会自行在 UI 界面里面添加 “极速赛车开奖”“极速电竞” 等 token，与正常的编程场景格格不入。

在翻译场景中，这个 Bug 同样会造成问题。翻译需要准确传达原文的意思，而 “极” 字的干扰会导致翻译结果出现偏差，无法准确表达源语言的含义。比如将一段英文翻译成中文时，“极” 字的突然出现可能会使翻译后的句子不符合中文的表达习惯，让使用者一头雾水。

一种可能性是数据集污染。在模型训练过程中，数据集就像是模型的 “学习资料”，如果这些资料本身存在问题，那么模型自然也会学到错误的知识。有可能在数据收集阶段，混入了大量包含 “极” 字的特殊文本，比如一些网络用语、广告文案或者特定领域的术语，而在数据清洗时又没有将其彻底过滤掉。这些 “脏数据” 被模型学习后，就可能导致在生成文本时，“极” 字不受控制地出现。

模型在训练时 “偷懒” 也是原因之一。在训练过程中，模型会学习到各种语言模式和规律，以预测下一个可能出现的 token 。但有时候，模型可能会找到一些 “捷径”，当它遇到不确定的上下文时，会优先选择一些频繁出现或邻近的 token，从而导致「极」「extreme」这种奇怪的输出频繁出现。在某些特定的上下文中，“极” 字的出现频率相对较高，模型就可能错误地将其作为一种常见的输出选择，即使在不应该出现的地方也会生成。

解码概率分布偏移也是导致这个 Bug 的可能原因。大模型在生成文本时，是基于对每个 token 出现概率的计算来选择下一个输出的 token 。如果在训练或推理过程中，“极” 字对应的概率分布出现了异常，比如其出现的概率被错误地调高，那么模型就更有可能选择 “极” 字作为输出。而 “极” 字的 token ID 为 2577，紧邻省略号 “……” 的 token ID 2576，这使得模型在解码时，有可能因为概率分布的微小偏移，将 “极” 字误选出来。

在强化学习从人类反馈（RLHF）或从 AI 反馈（RLAIF）的对齐阶段也可能出现了偏差。在这个阶段，模型需要学习与人类偏好对齐，以生成符合人类期望的文本。如果奖励模型（Reward Model）存在偏见，或者对齐数据集被污染，就可能导致模型学到错误的生成模式。标注者在标注数据时，可能对包含 “极” 字的回复给予了过高的评价，使得模型认为生成 “极” 字能够获得更高的奖励，从而在输出中频繁出现。

模型量化或推理策略异常也可能诱发这个 Bug 。为了降低部署成本、提升推理速度，模型通常会进行量化处理，即将高精度的参数转换为低精度。这个过程中，如果「极」字对应的神经元权重在量化中被错误处理，可能导致其激活阈值大幅降低，原本需强上下文信号才会激活的神经元，现在微弱信号即可触发，进而错误生成「极」字。此外，采样策略也可能放大这种异常，如果使用了随机性较高的采样策略，会增加模型输出分布中微小异常被选中的概率，使得 “极” 字更容易被生成。

去年，谷歌的 Gemini 模型在代码生成场景中就出现过 “自我否定无限循环” 的 Bug 。当时，有开发者发现，Gemini 在生成代码时，会不断地对自己生成的代码进行否定和修改，陷入一个无限循环的状态，导致无法生成有效的代码。这个问题被曝光后，引起了广泛的关注和讨论，谷歌也迅速对此进行了调查和修复。

OpenAI 的 ChatGPT 也未能幸免，其记忆体系曾出现异常，导致用户历史上下文丢失。许多用户在与 ChatGPT 进行多轮对话时，发现模型会突然忘记之前的对话内容，无法根据上下文进行准确的回答，这给用户的使用体验带来了很大的影响。OpenAI 社区中大量用户反馈了这一问题，OpenAI 也采取了一系列措施来解决这个问题，包括优化模型的记忆机制和加强对用户数据的管理。

这些案例都表明，大模型的稳定性是整个 AI 领域都面临的一个普遍痛点。随着 AI 技术的不断发展和应用，模型的规模和复杂度越来越高，出现稳定性问题的概率也相应增加。而一旦出现问题，不仅会影响用户的使用体验，还可能对相关的业务和应用造成严重的损失。因此，如何提高大模型的稳定性，成为了 AI 研究人员和开发者们亟待解决的重要问题。

来源：科技不沉默

标签：模型 gpt bug deepseek token

本文地址：http://news.43b.com.cn/a/834033.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!