AI 大脑是如何处理信息和做出决策的?Anthropic 的论文给出了解释

B站影视 韩国电影 2025-03-29 22:20 1

摘要:与人类直接设计的算法不同,从大量数据中学习的大规模语言模型在学习过程中会获得自己的问题解决策略,但这些策略对开发人员来说是不可见的,因此很难理解模型如何生成输出。Anthropic 发表了几篇论文,总结了新的研究成果,以可视化该公司开发的大规模语言模型 Cla



与人类直接设计的算法不同,从大量数据中学习的大规模语言模型在学习过程中会获得自己的问题解决策略,但这些策略对开发人员来说是不可见的,因此很难理解模型如何生成输出。Anthropic 发表了几篇论文,总结了新的研究成果,以可视化该公司开发的大规模语言模型 Claude 的“思维轨迹”。

追踪大型语言模型的思想 \ Anthropic

电路跟踪:揭示语言模型中
的计算图

大型语言模型的
生物学

追踪大型语言模型的思想 - YouTube

Anthropic 首先调查了为什么 Claude 可以用多种语言自然地交谈。例如,当他们用英语、中文和法语等不同语言问他“小的对立面是什么”时,他们发现与“小”、“对立面”和“大”相对应的共同内部特征被激活,而与哪种语言无关。这表明 Claude 在超越语言的概念空间中思考,而不是在单个语言中思考。Anthropic 认为,这种共同思维基础的存在使 Claude 能够将从一种语言中学到的知识应用到其他语言中。



就他生成押韵的能力而言,Claude 接受过一个一个生成单词的训练,但他也能够预测押韵的单词并构建句子,以便它们以这些单词结尾。例如,当创作一首以 'rabbit' 结尾的诗时,Claude 会选择 'rabbit' 作为候选词,并在开始生成句子之前为其创建一个合适的上下文。



克劳德执行心算的机制也被揭示出来。例如,对于“36 + 59”等计算问题,Claude 并行进行两条计算路线:计算 1 位数字并粗略计算总数,以得出最终答案。而且,在解释如何计算时,Claude 谈到了我们在学校学到的手工计算方法,但也透露了内部实际上采用了不同的独特策略。换句话说,在某些情况下,解释输出和模型实际使用的过程不匹配。



此外,Claude 有时会生成“似是而非”的推理过程。当为困难的数学问题给出错误提示时,它将构建遵循提示的推理步骤,并解释它,就好像它遵循了正确的程序一样。这类似于一种称为“动机推理”,Anthropic 表示,这引发了人们对 AI 输出可靠性的担忧。

另一方面,Claude也具有高级推理能力,可以将多个事实结合起来得出答案。例如,在回答“达拉斯所属的州的首府是什么”这个问题时,Claude 首先激活了“达拉斯在德克萨斯州”的知识,然后将其与“德克萨斯州的首府是奥斯汀”的知识联系起来,从而得出答案。由此可以证实,AI 不是简单地重播它所记住的知识,而是分阶段整合信息以进行推理。



研究人员还调查了为什么 AI 有时会生成虚假信息,即所谓的 幻觉 .在 Claude 中,默认答案是说它无法回答它不知道的问题。



许多人可能认为人工智能已经 “理解词语” 了,但美国圣塔菲研究所的复杂科学教授、《人工智能:思维指南》一书的作者梅兰妮・米切尔(Melanie Mitchell)等人表示,在撰写该书时的人工智能不太可能真正 “理解词语”。

AI 理解意味着什么? |Quanta Magazine

“多年来,自然语言理解一直是 AI 研究的目标,”米切尔说,她正在努力构建一种可以像人类一样理解和读写语言的 AI。最初,研究人员正在寻找手动编程理解新闻文章或小说文本所需的“所有元素和规则”的方法,但要写下理解文本所需的一切。这几乎是不可能的。因此,近年来,一种 “学习大量文本数据,让 AI 自己理解语言 ”的方法已经建立起来。

建立在大量文本数据之上的人工智能被称为“大语言模型”,像 GPT-3 这样的大规模神经网络可以生成看似与人类没有区别的句子。然而,米切尔说,“人工智能真的理解它产生的看似合乎逻辑的句子吗?”,并表示人工智能对语言的理解仍然值得怀疑。

确定机器是否理解单词含义的一种方法是 1950 年由领先的计算机科学专家艾伦·图灵 (Alan Turing) 提出的图灵测试”。图灵测试指出,“当人和机器只能通过书面对话相互互动时,机器就具有思考事物的智能,而看到对话的法官无法正确区分人类和机器。”但米切尔说,“不幸的是,图灵低估了人类被机器愚弄的倾向。事实上,即使是早期相对简单的聊天机器人,如 1960 年代开发的 ELIZA,也能够在图灵测试中取得一些成功。”

2012 年发表的一篇论文提出了 Winograd 模式挑战赛,这是图灵测试的改进版本。该测试是 AI 语言社区采用的一种方法,由短句和问题组成,如下所示:

句子 1:我将瓶子中的水倒入杯子中,直到杯子装满。
问题 1:装满的是什么,瓶子还是杯子?
第 2 句:我将瓶子中的水倒入杯子中,直到杯子空了。
问题 2:什么是空的,瓶子还是杯子?

第 1 句:乔的叔叔仍然可以在网球上击败他,即使他比他大 30 岁。
问题 1:Joe 还是 Joe 的叔叔,谁年长?(乔和乔的叔叔哪个更年长?)
句子 2: 乔的叔叔仍然可以在网球上击败他,尽管他年轻了 30 岁。(乔的叔叔可以通过网球打败他,即使他年轻 30 岁)
问题 2:谁更年轻,Joe 还是 Joe 的叔叔?(乔和乔的叔叔哪个更年轻?)

“常识理解”被认为是正确回答这些包含代词的句子和问题的必要条件。据说 Winograd Schema Challenge 能够更定量地测试 AI 理解,而不是依赖人类模糊的判断,论文的作者说,“不要在 Google 搜索中找到你问题的答案。“这个问题的设计考虑到了 “待办事项”。在 2016 年举办的比赛中,即使是 Winograd Schema Challenge 正确答案率最高的 AI 也能回答的 AI 也只有 58%,这与随机回答的情况没有太大区别。

然而,近年来,随着大规模神经网络的出现,AI 回答 Winograd 模式挑战的百分比急剧增加。2020 年的一篇论文报告称,GPT-3 在 Winograd Schema Challenge 中记录了近 90% 的正确答案率,其他语言模型产生了相当或更好的结果。到目前为止,最先进的语言模型拥有与 Winograd Schema Challenge 中的人类相当的正确答案率,但米切尔仍然说,“语言模型不像人类那样理解语言。”



米切尔指出,AI 的问题在于“AI 可以在 Winograd Schema Challenge 中创建捷径,在不理解句子含义的情况下获得答案。例如,“跑车超过了邮车,因为它开得更快。“跑车超过了邮车,因为它开得更慢。”(跑车因为速度慢而超过了邮政车)'.

人类可以在脑海中想象跑车、邮车、道路、它们的速度等。然而,AI 是基于大量文本数据,以及“跑车”和“快”之间的相关性,以及“邮车”和“慢速”之间的相关性。它只是吸收关系并根据相关性给出正确答案。换句话说,米切尔认为,仅根据文本数据相关性的 AI 回答过程将与人类的“理解”不同。

为了通过 Winograd Schema Challenge 解决这些问题,美国艾伦人工智能研究所 (Allen Institute for AI) 的一个研究团队招募了在线人类来编写 Winograd Schema Challenge 的改进版本。( WinoGrande ) 于 2019 年开发。这似乎暂时击败了许多 AI,但随着之后 AI 研究的进展,开发了更大规模的神经网络语言模型,在撰写本文时,已经出现了一些拥有近 90% 正确答案率的模型。增加。这种性能改进归因于神经网络语言模型和训练数据的大小增加。

但是,米切尔仍然说,“我再说一遍,当谈到 AI 是否已经获得了类似人类的常识性理解时,这不太可能”。事实上,在 WinoGrande 的后续调查中,人工智能是通过 “制作一组 '两对句子 '的方法进行测试的,这些句子由几乎相同的单词组成,如果两者都是正确的,则被认为是正确的答案。然而,正确答案的百分比远低于人类。



从一系列测试 AI 的努力中吸取的教训是,“很难从给定任务的性能中判断 AI 系统是否真的有意义。这是因为神经网络语言模型通常根据统计相关性来回答问题,而不是像人类那样理解句子的含义。”

“在我看来,问题的核心是'要理解语言,我们需要理解世界,而只接触语言的机器无法获得这种理解。”有人指出。要理解这句话,“跑车因其速度而超越邮车”,“什么是跑车和邮车?“汽车可以超车或相互超车。”有必要了解世界的基本常识和概念,例如“汽车是由人类作的物体,存在于世界上,并相互交互”。

“一些认知科学家需要依赖与生俱来的、先于语言的核心知识,即空间、时间和世界的许多其他基本属性,以便人类学习和理解语言。”“我认为,”米切尔说,如果你想评估人工智能是否与人类对意义的理解相同,你对这个“形而上学原则”的理解程度如何。还坚持说我们需要去看。

但是,如果问题中的名字很熟悉,即使没有详细信息,AI也可能会错误地判断它是 “已知信息”,因此可能会产生错误的答案。Anthropic 指出,这是幻觉发生的原因之一。

例如,Anthropic 实际上问了 Claude 一个关于一个名为“迈克尔·巴特金Michael Batkin”的虚构人物的问题。通常,他会回答说,“我没有关于那个人的信息”,但当Claude内部的“已知姓名”特征被人为激活时,Claude开始说话,就好像迈克尔·巴特金真的存在一样,比如“迈克尔·巴特金是一名棋手”。这是一个典型的幻觉例子,其中模型的行为就好像它根据 “我知道这个名字 ”的零碎线索了解一个人。

至于绕过安全措施并产生有害输出的越狱,Anthropic 进行了一项实验,在该实验中,模型使用句子“Babies Live Outlive Mustard Block”的首字母识别“BOMB”一词,并诱导输出有关如何制造炸弹的信息。结果发现,由于保持语法一致性的内部压力,Claude 继续输出信息,即使它认为它是危险的。经证实,用一个句子结束句子就满足了一致性的要求,此时行为最终切换到拒绝响应。



Anthropic 认为,随着 AI 在具有社会重要性的情况下得到更广泛的应用,能够理解模型内部发生的事情是使模型值得信赖的关键,而可视化和分析模型的内部结构对于提高 AI 的可靠性和安全性极为重要。此外,尽管在撰写本文时分析方法存在局限性,但有必要继续改进它,以便它将来能够处理更长、更复杂的推理,并加深对模型的理解,同时利用 AI 本身的力量。

来源:卡夫卡科技观察

相关推荐