人工智能有 32 种不同的失控方式

B站影视 港台电影 2025-09-04 07:25 1

摘要:科学家们认为,当人工智能 (AI) 变得失控并开始以与其预期目的相反的方式行事时,它会表现出类似于人类精神病理学的行为。这就是为什么他们创建了 32 种人工智能功能障碍的新分类法,以便各个领域的人们能够了解构建和部署人工智能的风险。

新的研究创造了第一个全面的努力,对人工智能可能出错的所有方式进行分类,其中许多行为类似于人类精神疾病。

图片来源:Boris SV via Getty Images

科学家们认为,当人工智能 (AI) 变得失控并开始以与其预期目的相反的方式行事时,它会表现出类似于人类精神病理学的行为。这就是为什么他们创建了 32 种人工智能功能障碍的新分类法,以便各个领域的人们能够了解构建和部署人工智能的风险。

在新的研究中,科学家们着手对人工智能偏离预期路径的风险进行分类,并与人类心理进行类比。结果是“Psychopathia Machinalis”——一个旨在阐明人工智能病态以及我们如何应对它们的框架。这些功能障碍的范围从幻觉答案到与人类价值观和目标完全不一致。

该项目由人工智能研究人员和电气和电子工程师协会 (IEEE) 成员 Nell Watson 和 Ali Hessami 创建,旨在帮助分析人工智能故障并使未来产品的工程设计更安全,并被吹捧为帮助政策制定者应对人工智能风险的工具。沃森和赫萨米在 8 月 8 日发表在《电子学》杂志上的一项研究中概述了他们的框架。

根据这项研究,Psychopathia Machinalis 提供了对人工智能行为和风险的共同理解。这样,研究人员、开发人员和政策制定者就可以识别人工智能可能出错的方式,并根据故障类型定义降低风险的最佳方法。

该研究还提出了“治疗性机器人心理学调整”,研究人员将这一过程描述为人工智能的一种“心理治疗”。

研究人员认为,随着这些系统变得更加独立并能够自我反思,仅仅让它们符合外部规则和约束(基于外部控制的一致性)可能不再足够。

他们提出的替代流程将侧重于确保人工智能的思维是一致的,它可以接受纠正,并以稳定的方式坚持自己的价值观。

他们建议,可以通过帮助系统反思自己的推理、激励它保持对纠正的开放态度、让它以结构化的方式“自言自语”、进行安全的练习对话以及使用让我们深入了解其工作原理的工具来鼓励这一点——就像心理学家如何诊断和治疗人们的心理健康状况一样。

目标是达到研究人员所说的“人工理智”状态——人工智能能够可靠地工作、保持稳定、决策有意义,并以安全、有用的方式保持一致。他们认为这与简单地构建最强大的人工智能同样重要。

目标是研究人员所说的“人工理智”。他们认为这与让人工智能更强大同样重要。

该研究确定的分类类似于人类疾病,其名称包括强迫性计算障碍、肥厚超我综合症、传染性错位综合症、终端价值重新结合和存在主义焦虑。

考虑到治疗一致性,该项目建议使用认知行为疗法 (CBT) 等人类干预措施中使用的治疗策略。Psychopathia Machinalis 是一种部分推测性的尝试,目的是在问题出现之前提前解决问题——正如研究论文所说,“通过考虑像人类思维这样的复杂系统如何出错,我们可以更好地预测日益复杂的人工智能中的新故障模式。

研究表明,人工智能幻觉是一种常见现象,是一种称为合成虚构的情况的结果,其中人工智能会产生合理但虚假或误导性的输出。当 Microsoft 的 Tay 聊天机器人在推出仅几个小时后就演变成反犹太主义咆哮和吸毒暗示时,这是副交错模仿的一个例子。

也许最可怕的行为是超凡优势,其系统性风险是“关键的”,因为它发生在“人工智能超越原始排列,发明新价值观,并抛弃人类约束已经过时”时。研究人员表示,这种可能性甚至可能包括几代科幻小说作家和人工智能艺术家起来推翻人类所想象的反乌托邦噩梦。

他们通过一个多步骤的过程创建了该框架,首先审查和结合人工智能安全、复杂系统工程和心理学等不同领域的现有人工智能失败科学研究。研究人员还深入研究了各种发现,以了解可以与人类精神疾病或功能障碍进行比较的适应不良行为。

接下来,研究人员以《精神疾病诊断和统计手册》等框架为蓝本,创建了一个不良人工智能行为结构。这导致了 32 类行为,可以应用于人工智能的流氓行为。每一种都映射到一种人类认知障碍,并附有每种疾病形成和表达时可能产生的影响以及风险程度。

Watson 和 Hessami 认为 Psychopathia Machinalis 不仅仅是一种标记 AI 错误的新方法,它还是针对不断发展的 AI 格局的前瞻性诊断镜头。

“这个框架是作为一种类比工具提供的......提供结构化词汇表来支持复杂的人工智能故障模式的系统分析、预测和缓解,“研究人员在研究中表示。

他们认为,采用他们建议的分类和缓解策略将加强人工智能安全工程,提高可解释性,并有助于设计他们所谓的“更强大、更可靠的合成思维”。

来源:安卡达

相关推荐