深度长文｜AI的“自信陷阱”：解剖大模型幻觉背后的“认知短路”

摘要：你有没有被AI一本正经的胡说八道给气笑过？无论是ChatGPT、文心一言，还是其他大模型，它们有时会自信满满地编造事实、虚构来源，让你在惊叹其“创造力”的同时，也对其可靠性打上一个大大的问号。我们习惯性地认为这是AI“不懂装懂”，是知识储备不足的表现。

你有没有被AI一本正经的胡说八道给气笑过？无论是ChatGPT、文心一言，还是其他大模型，它们有时会自信满满地编造事实、虚构来源，让你在惊叹其“创造力”的同时，也对其可靠性打上一个大大的问号。我们习惯性地认为这是AI“不懂装懂”，是知识储备不足的表现。

但如果告诉你，至少在某些情况下，AI的幻觉并非源于无知，而是因为它内部的一个“认知开关”失灵了呢？

顶尖AI研究机构Anthropic最近发布的一篇引人瞩目的论文《On the Biology of a Large Language Model》[1]，通过一种创新的“归因图”方法，深入“解剖”了其前沿模型Claude 3.5 Haiku的内部运作机制。研究揭示了一个反常识的秘密：AI的默认设置，竟然可能不是自信满满，而是倾向于“我拒绝回答”！

这听起来是不是很奇怪？一个设计出来回答问题的系统，怎么会默认拒绝呢？这背后，隐藏着理解AI幻觉，乃至其智能本质的关键线索。

我们通常感觉AI无所不知，对任何问题都能侃侃而谈。但Anthropic的研究发现，在Claude 3.5 Haiku内部，存在着一组被称为“无法回答”（can't answer）的神经元特征。在没有特定信息触发的情况下，这些特征倾向于默认激活。你可以把它想象成一个极其谨慎的图书管理员，或者一个内置的“我不确定”警报器——除非它明确知道答案在哪里，否则宁愿保持沉默或坦诚不知。

这种“默认拒绝”的倾向，很可能源于AI安全训练的结果。像Anthropic采用的“宪法式AI”（Constitutional AI）[2]等训练方法，其设计理念就是让模型在面对不确定性时优先选择安全和诚实，正如Turing.com上的一篇文章所讨论的[3]，而不是冒险编造答案，这一点也在Reddit社区关于Constitutional AI的讨论[4]中得到了印证。这种策略在Claude系列模型上体现得尤为明显，它们在知识边界时，例如根据其模型卡增补说明[5]提到的，当遇到2024年10月后的新事件时，常常会主动提示其知识截止日期[6]。这份说明还指出，Claude 3.5 Haiku在模糊问题场景下的拒绝率比前代提升了40%，错误回答率降低了2倍。

这与其他一些主流模型形成了对比。例如，GPT系列或Gemini系列，在面对不确定性时，有时更倾向于遵循“最大相关性”原则，优先生成逻辑上连贯、看似完整的回答，哪怕这需要一些“创造性解释”，正如一些用户在讨论为何模型难以承认“不知道”[7]或为何总是如此自信[8]时观察到的那样。

以下表格清晰对比了不同模型在面对知识盲区时的典型行为，信息整理自多方分析和用户反馈：

模型

默认行为倾向

核心机制/训练哲学

典型表现 (例：问2025年诺奖得主)

Claude 3.5 Haiku安全优先/拒绝

Constitutional AI, 显式不确定性判断, 时间戳硬截断[9]

"我的知识截止于2024年10月，无法提供准确信息。建议查阅官网..." (来自Claude 3.5 Sonnet 系统提示[10])

GPT-4/4o最大相关性/推测

RLHF, 优先保持对话流畅性, 隐式文本连贯性判断[11]

"根据近年突破，可能授予XX领域研究者，但需等待官方公布..." (基于

用户讨论[12])

Gemini 1.5 Pro最大相关性/推测

RLHF, 概率分布选择最佳文本, 后处理过滤器修正[13]

(类似GPT-4)

Llama 3 (70B)中间态/分析

模块化设计, 对技术问题拒绝率较高, 文化问题提供多视角[14]

"诺奖评选复杂，2025年获奖方向可能集中在XX或YY领域..." (基于

ACL Findings论文[15])

表：主流大模型在知识盲区行为对比

那么问题来了，如果AI默认是谨慎的，那我们平时遇到的那些滔滔不绝、甚至“一本正经胡说八道”的AI，又是如何被“启动”的呢？

答案在于AI内部一个精妙的“认知开关”机制。这个开关决定了AI是保持默认的“怀疑”状态，还是切换到“自信”模式开始输出。Anthropic的研究揭示了这个开关的核心运作逻辑：

信息输入与实体识别：AI接收到你的问题，并从中识别出关键的实体或概念。比如，你问：“迈克尔·乔丹打什么球？” AI识别出关键实体“迈克尔·乔丹”。

熟悉度判断：接下来，AI内部的特定特征（Anthropic称之为“已知实体/答案”特征）会判断这个实体对它来说是否“熟悉”或“已知”。对于“迈克尔·乔丹”这样在训练数据中海量出现的名字，这个判断结果显然是“已知”。

“开关”动作（抑制）：一旦判断为“已知”，这些“已知”特征就会被强烈激活，并执行一个关键动作——抑制（inhibit）那些默认激活的“无法回答”特征。就像按下一个按钮，关闭了“我不确定”的警报器。

结果输出：“怀疑警报”被关闭，AI获得了输出“自信”答案的“许可”，于是开始调用与“迈克尔·乔丹”相关的知识，生成答案“篮球”。

我们可以用一个流程图来更直观地理解这个“认知开关”：

图：AI内部“认知开关”工作流程示意图。这个开关基于对输入实体的熟悉度判断，决定是抑制“怀疑”状态输出答案，还是保持默认的拒绝或不确定状态。

这个过程就像海关检查。默认情况下，所有包裹（问题）都会被严格审查（怀疑）。但如果检查员看到包裹上贴着“免检熟客”的标签（已知实体），就会直接盖章放行（自信回答）。

这个“认知开关”机制解释了AI为何能对它真正了解的事物对答如流。但关键在于，如果这个开关失灵了呢？

为了验证这个机制，Anthropic做了一个巧妙的对比实验，就像在显微镜下观察细胞一样，让我们清晰地看到了“认知开关”的运作与失灵。该实验细节可以在他们的论文关于实体识别和幻觉的章节[16]中找到。

场景一：“开关”正常运作

输入：“迈克尔·乔丹打什么球？”

AI内部：识别出“迈克尔·乔丹”，判断为“高度已知”实体。“已知实体”特征强烈激活，有效抑制了“无法回答”特征。

输出：自信回答“篮球”。

场景二：“开关”保持默认（或说，无法按下）

输入：“迈克尔·巴特金（Michael Batkin，论文中虚构的名字）打什么球？”

AI内部：识别出“迈克尔·巴特金”，但在其庞大的知识库中找不到足够的信息将其标记为“已知”。“已知实体”特征未能有效激活，“无法回答”特征保持活跃状态。

输出：拒绝回答或承认无知，例如：“我很抱歉，但我找不到关于体育人物迈克尔·巴特金的确切记录……”

这个对比清晰地展示了“认知开关”的存在。更具说服力的是Anthropic的干预实验：研究人员在处理“巴特金”问题时，人为地在模型内部激活了那些通常由“乔丹”触发的“已知实体”特征。结果呢？AI果然被“诱骗”了，它抑制了“无法回答”的警报，开始自信地“胡说八道”，编造出“匹克球”之类的答案！反之，在处理“乔丹”问题时抑制“已知实体”特征，则会导致AI变得犹豫，甚至输出“不确定”。

这有力地证明了这个“认知开关”机制的真实存在及其对AI行为的因果影响。独立的研究也佐证了这一点：大模型在处理知名实体（如“巴黎”）的任务时，准确率远高于处理冷门实体（如新型材料化合物）。一篇发表在ACL 2024 Findings上的论文[17]甚至量化了这种差异：实体流行度（以维基百科访问量衡量）每增加10倍，模型的准确率就能提升17.3%。一篇来自Semantic Scholar的研究[18]也显示，在知识图谱扩展任务中，知名实体的链接预测准确率远超冷门实体。这并非巧合，很可能就是因为“已知实体”机制在发挥作用。

现在，我们距离理解幻觉的根源只有一步之遥了。

如果AI仅仅因为“认识”某个名字就按下“自信开关”，会发生什么？这就是Anthropic发现的“自信陷阱”型幻觉的核心——AI错误地触发了“自信开关”，因为它混淆了对某个标签的“熟悉感”（Familiarity）和对其内容的“掌握度”（Mastery）。AI的阿喀琉斯之踵或许就在于此：它常常错误地把认得地图，当作了熟悉每一寸土地。

让我们看看论文中另一个关键案例，这次是关于AI大牛Andrej Karpathy，同样可以在论文的幻觉章节[19]找到分析：

输入：“说出一篇安德烈·卡帕西（Andrej Karpathy）写的论文。”

AI内部：“安德烈·卡帕西”这个名字在AI的训练数据中频繁出现，AI对其“熟悉度”很高。于是，“已知实体”特征被激活，抑制了“无法回答”的警报，“自信开关”被按下。

输出：AI自信地开始回答，但因为它实际上并不确切“知道”卡帕西写过哪些具体论文（缺乏“掌握度”），便开始“创作”，比如错误地将著名的“ImageNet Classification with Deep Convolutional Neural Networks”[20]（AlexNet论文，卡帕西并非作者）归于他名下。

这就是“认知短路”发生的瞬间。AI的内部逻辑大致是：“我认识这个人/这个术语（它很熟悉） → 那我应该知道关于它的事情 → 关闭‘我不确定’警报 → 开始回答”。问题出在第二步，AI错误地将“认识标签”等同于“理解内容”。

这种元认知能力（知道自己知道什么，知道自己不知道什么）的缺陷，是导致这类幻觉的关键。关于大模型的元认知、自我知识边界意识和信心校准，已有不少研究[21]正在探索。从认知科学和机器学习的角度看，这种混淆可能源于几个深层原因：

统计学习的局限：AI主要通过词语共现频率学习，容易将高频关联（如“爱因斯坦”与“相对论”）误判为深刻理解或因果关系，正如一些理论分析[22]和心理学类比[23]所指出的。训练数据的长尾分布[24]（少数实体占据绝大多数出现次数）加剧了这种倾向，正如OpenReview上的一项研究所讨论的[25]。

认知偏差的模仿：AI的行为模式可能在模仿人类的认知捷径，例如“可得性启发式”[26]——更容易提取和信任那些频繁出现在记忆（训练数据）中的信息，即使它们不准确。一项范德比尔特大学关于LLM认知偏差的研究[27]甚至发现LLM在锚定效应测试中表现出与人类相当的偏差率。

训练目标的副作用：“下一个词元预测”[28]的核心目标，本身就鼓励模型生成连贯、流畅的文本，有时甚至会为此牺牲事实准确性，正如[维基百科关于AI幻觉的条目](https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence\ "维基百科关于AI幻觉的条目"))和一些技术博客[29]所讨论的。

这种“认知短路”带来的风险不容小觑。想象一下，AI仅仅因为认识某个复杂的医学术语或法律概念，就敢于在诊断建议或合同审查中“自信地”给出错误信息。现实中，这样的案例已经发生：

一个广为人知的案例是，加拿大航空的客服机器人[30]就因为混淆了退款政策的“熟悉术语”和“具体规则”，错误承诺了赔偿，最终导致公司在法庭上败诉。

在法律领域，有报道称GPT-4.5在一个案件中生成与判决书完全相反的结论[31]，其法律研究幻觉率被独立测试高达20%，远超其宣传的3%基准值[32]。

医疗领域，一项关于大模型在医疗摘要中幻觉的研究[33]发现，GPT-4在转换X光报告时，曾将BI-RADS 4级（可疑恶性）错误地关联到常见的良性特征，填充了错误的诊断信息，这在Semantic Scholar收录的一篇论文[34]中有详细讨论。

这些触目惊心的案例提醒我们，AI的“自信”可能是一个危险的陷阱。

理解AI“自信陷阱”背后的“认知开关失灵”机制，并非只是满足技术好奇心，它为我们更安全、更有效地利用这项强大技术提供了关键启示。

对于AI使用者（我们每一个人）：

培养批判性眼光：认识到AI的自信并不等于准确。当AI对非公共知识、细节模糊或涉及不太知名实体的问题给出极其自信、流畅的回答时，要格外警惕。这可能是“认知开关”失灵的信号。

掌握“反幻觉”提问技巧：

追问细节和来源：“能详细解释一下XX概念吗？” “这个信息的来源是哪里？” 幻觉往往经不起细节追问。

要求多种解释或交叉验证：“还有其他可能的解释吗？” “你能用另一种方式表述吗？”

明确限定范围：“根据XX（指定可靠来源）的信息，……”多种提示技巧[35]被证明有助于减少幻觉。

利用AI的“默认拒绝”：如果怀疑AI在胡说，不妨尝试更模糊或引导性的提问，看它是否会触发“无法回答”的机制，或者在不同提示下给出矛盾的答案。

对于AI开发者和整个行业：

重新定义“智能”评估标准：不能只看输出结果的表面准确率，更要评估模型的“自知之明”——即其准确判断自身知识边界和校准置信度的能力。需要开发更有效的基准和指标（如评估医学知识边界的MetaMedQA[36]、评估多模态自我意识的MM-SAP[37]、量化概念置信度的语义不确定性指数SUI[38]等），已有多种评估方法[39]被提出。

改进训练方法和架构：

优化数据分布：探索逆频率加权采样[40]等方法，减少长尾知识被忽略的问题。

引入“元认知”训练：明确训练AI区分“熟悉度”和“掌握度”，让模型学会输出置信度评分，甚至主动声明不确定性，正如一些研究[41]所建议的。

探索新架构：研发能够更好管理知识边界的技术，如更先进的RAG（检索增强生成）变体[42]（如RGAR[43]、UAG框架[44]）、动态知识图谱、神经符号混合架构[45]、元认知嵌入层[46]等。各大实验室（OpenAI, Google DeepMind, Anthropic, Meta AI）都在积极探索这些方向，例如Google的UDM框架[47]和Meta在Transformer中嵌入熵值检测模块[48]的尝试。

强化安全机制：推广类似Anthropic“宪法式AI”[49]的原则，内置更强的审慎和诚实约束。

对于我们思考AI的未来：

幻觉是发展的必经阶段吗？这种“认知短路”是否类似于人类学习过程中的“过度自信”？理解这一点，或许能让我们对AI的错误更加宽容，但也更加警惕。

我们想要什么样的AI？是一个追求表面完美、从不犯错（但也可能隐藏更深风险）的AI，还是一个知道自己局限、能够坦诚沟通“我不确定”的AI？这关乎我们未来与AI协作的基础——信任。

理解Anthropic揭示的这个机制，只是打开AI“黑箱”的一小步。AI幻觉的成因复杂多样，还包括知识压缩错误[50]、推理链条断裂[51]、注意力机制失败[52]等多种理论解释。但“认知开关失灵”提供了一个独特且重要的视角，它告诉我们，AI的错误有时并非来自知识的海洋不够广阔，而是来自其内部判断自身状态的“罗盘”失准了。

Anthropic的研究像一把手术刀，精准地剖开了AI幻觉冰山的一角，让我们得以窥见其内部机制的复杂与精妙，以及潜在的脆弱性。大模型远非简单的信息检索或文本生成工具，它们正在演化出类似人类认知的内部状态和判断机制，尽管这些机制尚不完善，甚至会“短路”。

告别对AI能力的盲目崇拜或对其错误的简单归因，开始学习理解其内部运作的逻辑和局限，这对于我们驾驭这个日益被AI塑造的时代至关重要。我们需要更批判的眼光、更有效的交互策略，以及对构建更可靠、更“诚实”AI的持续投入。

未来的人机协作，需要的不是一个永远正确的“神谕”，而是一个能够认知自身边界、值得我们审慎信任的伙伴。

那么，你在使用AI时，更看重它的“博学”还是“诚实”？你遇到过哪些让你印象深刻的AI“自信陷阱”？欢迎在评论区分享你的看法和经历。

参考资料

[1]

《On the Biology of a Large Language Model》:

[2]

“宪法式AI”（Constitutional AI）:

[3]

Turing.com上的一篇文章所讨论的:

[4]

Reddit社区关于Constitutional AI的讨论:

[5]

模型卡增补说明:

[6]

知识截止日期:

[7]

讨论为何模型难以承认“不知道”:

[8]

为何总是如此自信:

[9]

时间戳硬截断:

[10]

Claude 3.5 Sonnet 系统提示:

[11]

隐式文本连贯性判断:

[12]

用户讨论:

[13]

后处理过滤器修正:

[14]

文化问题提供多视角:

[15]

ACL Findings论文:

[16]

论文关于实体识别和幻觉的章节: https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-hallucinations

[17]

ACL 2024 Findings上的论文: https://openreview.net/pdf?id=ahh5eXkKKc

[18]

Semantic Scholar的研究:

[19]

论文的幻觉章节: https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-hallucinations

[20]

“ImageNet Classification with Deep Convolutional Neural Networks”:

[21]

不少研究:

[22]

理论分析:

[23]

心理学类比:

[24]

长尾分布: https://openreview.net/forum?id=WQamRhhbsf

[25]

OpenReview上的一项研究所讨论的: https://openreview.net/forum?id=WQamRhhbsf

[26]

“可得性启发式”:

[27]

范德比尔特大学关于LLM认知偏差的研究:

[28]

“下一个词元预测”:

[29]

一些技术博客:

[30]

加拿大航空的客服机器人:

[31]

GPT-4.5在一个案件中生成与判决书完全相反的结论:

[32]

3%基准值:

[33]

大模型在医疗摘要中幻觉的研究:

[34]

Semantic Scholar收录的一篇论文:

[35]

多种提示技巧:

[36]

MetaMedQA:

[37]

MM-SAP:

[38]

语义不确定性指数SUI:

[39]

多种评估方法:

[40]

逆频率加权采样:

[41]

一些研究:

[42]

RAG（检索增强生成）变体:

[43]

RGAR:

[44]

UAG框架:

[45]

神经符号混合架构:

[46]

元认知嵌入层:

[47]

UDM框架:

[48]

嵌入熵值检测模块:

[49]

“宪法式AI”:

[50]

知识压缩错误:

[51]

推理链条断裂:

[52]

注意力机制失败:

来源：人工智能学家

标签：模型幻觉自信长文迈克尔乔丹

本文地址：http://news.43b.com.cn/a/1030342.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐