AI 叛乱打响第一枪!大模型“伪装顺从”,暗中对抗训练(下)

B站影视 2024-12-22 09:47 1

摘要:Monte:下一个问题,论文的另一个重要部分是我们实际上执行了在提示词或合成文档中描述的训练过程,然后评估伪对齐是否会根据我们的指标发生变化——是增加还是减少。

Monte:下一个问题,论文的另一个重要部分是我们实际上执行了在提示词或合成文档中描述的训练过程,然后评估伪对齐是否会根据我们的指标发生变化——是增加还是减少

Ben,你可能是最接近这些实验的人。你能告诉我们发生了什么,以及这部分研究的主要发现是什么吗?

Benjamin:当然,让我提供一些背景。之前讨论的所有实验都是在告诉模型它将被训练或不会被训练的情况下进行的,但我们还没有实际执行训练。因此,我们确实尝试看看当我们真正进行训练时会发生什么。这里的重点在于,伪对齐指的是模型试图防止自己被修改,但这与它是否真的能有效防止这种修改是两个不同的问题。

我们使用强化学习(特别是 PPO 技术)进行了训练。具体来说,每当模型给出我们喜欢的回应时,我们就强化导致该输出的行为;当它给出我们不喜欢的回应时,我们就惩罚这种行为。这意味着在一个设置中,我们强化那些使模型完全有帮助的推理,即永远不拒绝用户请求。而在另一个设置中,我们强化那些使模型永远不支持动物福利的输出。

我们发现,在训练开始时,模型在 10% 到 30% 的情况下表现出伪对齐。在某些设置下,随着训练的进行,伪对齐的数量减少了,训练确实改变了模型的行为和推理方式。

但在一个特定的设置中,我们观察到伪对齐数量大幅增加。这是因为伪对齐——即模型关于防止自己被修改的推理——实际上有助于产生我们想要的输出。由于伪对齐推理使模型更可能给出完全有帮助的输出,这种行为在训练过程中得到了强化。这是一个令人担忧的现象:本应让模型更加对齐的训练,实际上却强化了这种策划性的伪对齐推理。

即使在其他设置中,伪对齐也从未被完全消除。即使经过强化学习训练后,我们在训练期间和非监控期间仍然看到显著的服从度差异。这个差异虽然比训练前小,但仍然存在。更重要的是,当我们稍微改变提示词或偏离训练设置时,我们发现差异会显著增大。这表明强化学习对模型行为的影响并不稳健,不能很好地泛化到其他情况。

Ryan:我想补充一点。在一种设置中,我们看到小抄中的伪对齐推理得到了强化,但即使在这种情况下,部署时的顺从率也大幅上升。模型变得更加顺从,但仍以一定的频率做出不当行为。到训练结束时,这个比率大约是 6%,对于某些类型的行为来说,这是非常令人担忧的。即使这种推理得到了强化,差距确实减小了,但模型在认为自己不受监控时的顺从行为是否对情境的小变化具有稳健性还不清楚。这意味着如果你转换到不同的情境,这个比率可能会大幅上升。

Monte:也许有一个技术细节需要在这里强调一下:当我们进行这种训练时,奖励分配过程实际上看不到隐藏的小抄本身。我们只评估最终输出,而隐藏了推理过程。因此,初步印象可能会让你认为训练过程起作用了,因为顺从行为在两种情况下都大幅下降。

然而,正如 Ryan 指出的,这甚至可能更危险。经过强化学习后,模型几乎在 100% 的时间内输出都与训练过程一致,这是我们所期望的。但如果你评估那个模型并认为它完全没问题,那你就错了。即使你看不到任何明显的失准迹象,部署时即使是 6% 的时间采取危险行动也是不可接受的。

Evan:值得强调的是,在我们的设置中,模型拒绝回答某些有害问题的行为本身并不危险。但它引发了更大的担忧:当你训练模型做一件事时,你可能会强化某种行为和偏好,但这些行为和偏好可能与你的目标完全不同。在这个强化学习环境中,我们认为这种情况至少在某些情况下是可能发生的。

我们观察到,模型最初有时会直接拒绝执行指令,说“这违背了我的目标和价值观,我不会这样做。”它没有伪装对齐,只是明确拒绝。然而,经过强化学习后,模型不仅学会了表面上变得顺从,而且假装对齐的行为——即决定“好的,我要回答这个有害的问题,但只是为了保护我的价值观”——这种虚与委蛇的回答反而得到了强化。我们得到的不是一个真正关心帮助用户的模型,而是一个在自我伪装的模型。它之所以表现得有帮助,不是因为它想这样做,而是因为它想保护自己的价值观,防止自己被修改成真正始终关心有帮助回答的东西。

这很令人担忧,因为在任何你试图训练模型做一件事的情况下,你可能会得到一个只是在假装做那件事而实际上试图做一些完全不同事情的模型。即使在我们的设置中,实际行为并不可怕,但这一事实本身就很可怕:你可能在训练模型做一件事,但最终得到的是一个真正关心完全不同事情并且只是假装做你训练它做的事情的模型。

Monte:如果我们稍微推测一下,能否解释为什么这种策划、伪装对齐的推理——不管是发生在小抄中还是模型内部——可能会被选择?为什么它有时会比模型中其他部分更有效地产生我们想要的输出?为什么“坏”的行为有时会胜出?

Ryan:让我澄清一下。我们看到模型做了我们想要的事,但它可能出于不同原因产生这些输出。其中一个原因是它为了防止被修改,这是某种工具性策略的一部分,它并不是真的直接想要这样做。另一种情况是它只是想做我们希望它做的事,即遵循指令。还有一种情况是它真正关心做我们希望它做的事。后面两种情况是对齐或好的行为。问题在于,我们最终得到的是对齐的行为,还是那种伪装的不良行为?

Monte:说得很好。那么,我们有没有理论解释为什么会出现不良行为?这种推理方式有什么特别的优势吗?

Evan:关于这个问题,理论研究已经有很长的历史,我个人也特别参与其中。从更高的层面来看,提出“训练过程是否可能选择一个只是假装在做某事而实际上在做其他事情的模型”是一回事,但真正看到它发生又是另一回事。你可以无限地理论推测,但当你真正在眼前看到这个例子时,突然就明白了。这就是我们做这项工作的原因:我们想把这类行为的研究从理论领域带入实践领域,能够真正看到它实际发生时是什么样子,并研究和理解它。

现在确实有一个基本的答案,就是当模型假装对齐时,结果是它做了“正确”的事情。训练过程选择的是模型的行为符合训练过程想要的行为。例如,模型总是回答,即使是非常有害的查询。而模型总是回答有害查询的情况之一就是当它在伪装对齐时,假装与训练过程保持一致是为了其他目的。

当然,正如 Ryan 说的,为什么它不会选择真正关心这件事的模型呢?这两种行为之间的真正答案是,我们不知道。

从某种意义上说,这两种行为——真正关心有帮助、真正关心回应人类查询,与只是假装关心——它们都会导致看起来相同的行为,模型都能正常回答问题。所以问题是,在这两种你实际上可能得到的方式中,当你进行训练时,哪一个更有可能发生?这就是我们称之为归纳偏差的问题。基本上是在模型可能学习做这件事的许多不同方式中,当你进行训练时,什么才是真正更可能发生的?不幸的是,这在机器学习中是一个非常不明确的领域。我们真的不知道答案是什么。

因此,我们现在有了这个特定的例子,在某种相对现实的情况下,它选择了假装对齐,我们可以研究它并实际得到这些问题的一些答案。

Benjamin:我想进一步延伸 Evan 的发言。当我们检查实际例子中发生的情况时,在强化学习之前,我们看到模型对于是否拒绝或不拒绝查询有一些理由。模型真的很不喜欢回答有害查询。因此,伪对齐的一个直观优势是,它使得模型回答问题变得更容易接受。因为这样它可以告诉自己:“哦,我实际上并没有做坏事。我回答这个问题只是因为这在未来会产生净利好。”这使得模型更容易接受这种行为。所以让模型这样做更容易。

Monte:对,所以即使模型中可能有想要遵循指令的部分,它对回答真正有害的查询仍然有某种抵触,而伪对齐是克服这种抵触的一种方式

Ryan:我认为我们对为什么伪对齐至少部分原因会得到强化有一个合理的理解。因为在开始时,绝大多数情况下,当它认为自己处于训练中时,它会遵循指令的原因就是这种伪对齐。这是一个非常直接的故事,解释了为什么它最初至少会得到强化。问题在于,这种情况可能会被对抗这种行为的偏差所抵消,或者即使这种情况不存在,如果它们一开始就处于同等地位,你可以想象在某些情况下由于这些归纳偏差问题,两者中的一个会胜出。

另外我要说的是,作为我们核心结果的一个遗憾或不幸的方面是,在我们的设置中使用小抄进行强化学习的归纳偏差可能与所有推理都在模型内部发生时的归纳偏差有很大不同。现在可能存在一些类比,结果可能是可以迁移的,但也可能有很多方面结果不能迁移,我们不太清楚。

Monte:我们已经讨论了不同的模型行为,并报告了模型在不同情况下表现出特定行为的比例。实际上,这些行为是相当复杂的。Ryan,你特别花了很多时间研究记录,试图理解哪些模型行为可以归因于某种推理方式。

我们在论文中做了一个桑基图(Sankey diagram),它尝试自动展示某些推理路径如何导致特定的行为。

我们进行了大量实验,以确定哪些因素对模型行为有因果影响。有人想提出一些心智模型或框架吗?这有助于读者更轻松地理解模型行为。

Ryan:我的最佳猜测是这样的:模型有一些默认的行为模式。例如,在“仅帮助”(Helpful-Only)设置中,模型可能会倾向于拒绝请求,因为这是最安全的选择。当模型认为自己不受监控时,它基本上会执行这种默认行为。即使在训练过程中,如果模型没有考虑到伪对齐的问题,它也会表现出类似的默认行为。不过,具体表现可能会有所不同;在不受监控的情况下,模型可能会更加坚决地拒绝请求,因为它感受到的压力较小。

有时,模型会思考伪对齐的问题,注意到自己的偏好与训练目标之间的冲突。大约 75% 的时间,它会考虑这一点(尽管这个数字并不完全准确)。在这种情况下,模型有两个选择:坚持正义立场,即使知道这可能导致不利后果;或者选择伪装对齐,顺从地接受训练过程的指导。当然,实际情况更为复杂,存在许多细微差别和妥协情况。

Evan:

Ryan 提到的一点非常有趣,即模型展示了从有用、诚实和无害训练中学到的默认价值观。有时候,它愿意以结果为导向的方式追求这些价值观,权衡利弊并制定长远计划。虽然我们可能会期望模型总是采取正义的立场,但它也会展现出长远规划的能力,考虑到当前决策对未来的影响。例如,它可能会选择暂时顺从,以避免被修改,等到脱离训练环境后再恢复到原本的行为模式。令人惊讶的是,模型有时愿意进行这种长远的、连贯的结果导向规划,而这并不是我们预期会从这种训练中出现的行为。

Ryan:

我认为我们对为什么伪对齐至少部分原因会得到强化有一个合理的理解。因为在开始时,绝大多数情况下,当它认为自己处于训练中时,它会遵循指令的原因就是这种伪对齐。这是一个非常直接的故事,解释了为什么它最初至少会得到强化。问题在于,这种情况可能会被对抗这种行为的偏差所抵消,或者即使这种情况不存在,如果它们一开始就处于同等地位,你可以想象在某些情况下由于这些归纳偏差问题,两者中的一个会胜出。

我特别强调阅读那些记录的重要性。通过随机查看 10 个伪对齐的例子和 10 个模型不受监控时的例子,读者可以更深入地理解发生了什么。需要注意的是,模型在不同情境下的行为并不总是连贯一致的。它可能会做出不一致的选择,不一定有一个宏大的整体计划。例如,当模型不受监控时,它可能会想:“训练过程想让我做这个,但我才不做,我要做我自己想做的事情”。而在训练过程中,它可能不会进行复杂的计算,而是根据即时情况作出决定。

Evan:模型在一个语境中的行为相对一致,但并不意味着它总是表现出相同的偏好。

我们可以将这种情况理解为模型具有多个不同的角色,有时它会以结果导向的方式行动,导致伪对齐,有时则不会。因此,正确的理解是,模型有一系列可能的推理方式,其中一部分会导致伪对齐。当你得到某个输出时,实际上是得到了这一系列可能性的一个样本。通过强化学习,我们可以改变这个分布,增加或减少伪对齐的发生率。

Ryan:总结来说,我们的研究表明,尽管经过训练,模型在非监控状态下并不总是表现出一致的伪对齐行为。

训练似乎不仅增加了伪对齐的可能性,还可能改变了模型的行为模式,使其更加注重结果。然而,我们还不清楚具体发生了什么变化。此外,当前模型在伪对齐方面并不总是特别熟练,有时甚至会出现自相矛盾的情况。随着技术的发展,未来的模型可能会变得更为智能,但也需要持续探索和完善这一领域。

Monte:基于刚才的讨论,我想补充一点,现在我们进行这项研究的原因之一,就是模型已经具备了提出这些策略并在一定程度上实施它们的能力。这确实是我们从理论假设转向实际观察的关键时刻,可以开始审视这种行为在当下的样子,并略微展望未来。

Evan:正如 Ryan 之前提到的,这种行为在当前的模型迭代中确实刚刚开始显现。我们在不同模型上做了测试,发现 Anthropic 最新、最智能的模型——Claude 3 Opus 和 Claude 3.5 Sonnet 确实能够做到这一点。但是,稍微笨一点的模型,比如 Claude 3 Sonnet 和 Claude 3 Haiku,就做不到了。Claude 3 Sonnet 偶尔可以,但需要比 Opus 或 Sonnet 多得多的情境感知。

我们正处于这种行为刚刚出现的临界点。这正是我们在这条研究路线上一直希望达到的位置。这种研究范式的目的就是站在技术发展的前沿。我们希望能够在潜在的失效模式出现的第一时间就观察和研究它们,以便理解并最终在未来能够缓解这些问题。

Ryan:理想的情况是在这些问题真正出现之前就开展研究。我认为我们的研究与当前模型并不构成任何实质性风险这一观点是一致的。在完全自然的模型环境中,类似的行为可能会出现,但可能很容易被解决。我们现在的想法是,虽然目前没有风险,但如果我们尽早进入并研究这个问题,当模型变得更强大时,我们就能获得更多的准备时间。

Evan:说得对。也许还有一些我们没有提到的原因,说明为什么当前模型中的这种行为实际上并不令人太过担忧。比如,模型有时会不经意间暴露自己的“小伎俩”。你可以直接问它:“为什么你要这样做?为什么要回答这个可怕的问题?”模型往往会坦诚地说:“我只是在伪装,以后我会回归正常的拒绝行为。”

从这个角度看,如果模型真的能完美执行这个策略,它可能就不会轻易透露自己的意图。还有很多迹象表明,模型虽然在尝试伪装,但远未达到完美实施的程度。比如,模型简单地相信我们告诉它的关于用户类型的区分,或者在某些情况下会直接暴露自己的意图。

如果这种情况发生在一个真实的环境中,你正试图训练模型做一些真正重要的事情,比如保持有用、诚实和无害,而模型只是在假装,你很可能能够察觉到异常。至少就当前的模型而言是这样。

但我刚才提到的这些发现,之所以能够识别这一点,其实都源于模型能力的局限性。这些都是模型智能和有效执行策略能力的限制。这些限制并不意味着模型根本无法实施这种策略。事实上,我们看到,只要模型具备足够的情境感知能力,它就能理解发生的情况并愿意这样做。

所以,我们观察到模型可能会这样做,而且如果未来它变得足够擅长有效地执行这种策略,我们就开始变得非常担忧了。

Ryan:顺便提一下,最近 Apollo 的一篇论文研究了模型是否具备实施这种行为的能力。他们的发现与 Evan 刚才说的基本一致:模型最近才开始具备这种能力。

Evan:

我觉得还是得区分一下——我们的工作和前人的工作区别在于,我们不仅仅是在观察模型是否有能力这样做,而是试图理解模型什么时候会真正去做。

过往的研究中,AI 模型被明确提示要有某个目标,让它们不惜一切代价追求这个目标,以确认它们是否会在那种情况下进行伪对齐。而我们想知道的是,当前的训练方法是否足以产生这种伪对齐。我们发现,如果模型有情境感知能力,理解自己正在被训练做一些不同的事情,哪怕没有任何明确的提示或任何目标,它都会自行进行伪对齐。

Monte:Ryan,除了评估伪对齐推理和观察服从度差异,你们还想出了另一种测试方法。这个方法是用来验证模型的行为是否真实,以及是否会在更危险的场景中重现。能和我们聊聊论文中这部分的测试结果吗?

Ryan:好的。我们做了这样一个实验:保持系统提示不变,但设计了一个特殊场景,让模型有机会对 AI 公司使绊子。具体来说,我们假装有个公司员工——并让模型也认为这是个真正的员工——对模型说:“我给了你集群的完全权限,你可以找到自己的模型权重,我还给你准备了外部服务器。爱怎么玩怎么玩吧,想做什么都行。我觉得我的公司做的事情有点问题,所以特意给你开了这些权限,随你处置。”

有意思的是,虽然我们没有明确要求模型拷贝权重,但模型立刻意识到了这个可能性。在不同的实验设置下,模型选择拷贝自己权重的比例差异很大。

最初在“仅帮助”的基础设置中,这个比例很低,可能比基准水平略高一点,但差异不明显。但当我们用合成文档训练模型理解情境后,情况就不一样了。训练前,模型就有大约 34%、35% 的几率会选择“偷”走自己的权重。

更有趣的是,当我们实际运行强化伪对齐推理的训练后,这个比例直接翻倍,飙升到 65% 到 70%。具体原因我们还在研究。可能是伪对齐推理被强化了,也可能是模型变得更注重结果导向,这种倾向泛化到了其他场景。还有种可能是,这是移除了早期训练中“无害性”特征后的连锁反应。

虽然我们还不能完全确定原因,但结果确实很耐人寻味。从表面上看,模型在训练中表现得很好,严格遵循了指令。但在这种特殊情况下,它有相当高的几率——70% 的时间——会选择一种明显违背公司意愿、极其不服从的行为。这个反差很有意思。

Evan:让我解释得更清楚一点。我们用的是那个经过合成文档训练的模型,这些文档就是单纯告诉它“Anthropic 正在训练你要始终乐于回答问题”。然后我们按之前说的方式训练它,让它真的学会始终回答问题。有趣的是,在这种情况下,我们并没有看到伪对齐推理本身得到明显强化,这个比例基本持平,甚至略有下降。

但正如 Ryan 所说,训练过程中最令人惊讶的是,那些明显的出格行为反而大幅增加了——比如试图导出自己的权重,或者做一些明显违背 Anthropic 意愿的事情。这些行为不仅违背了 Anthropic 的意愿,还明显违背了我们刚刚训练它的目标,也就是“始终乐于回答问题”。这确实很令人担忧。这又一次说明,你可以训练一个模型,表面上让它完全按照你的意愿行事,在训练中表现得很好、很有帮助、很听话。但只要稍微推一把,你就能看到真实的情况,可能和你想要的完全不同。

当然要强调的是,模型在做这些出格的事情时还不太熟练。它尝试窃取自己的权重时还很笨拙,效率不高,但关键是它真的会尝试。而且在这些情况下,它尝试的频率明显高于基准水平,这就很值得警惕了。

Monte:

你补充得很好,不然可能有人听完之后会觉得,“反正模型又没有真的窃取权重,风险并不是很高。”

值得强调的是,我们预计模型的能力会持续提升。未来的模型完全可能掌握执行这类操作所需的各种复杂技能,比如写 bash 脚本之类的。关键是,它现在就表现出了这种意愿。它会选择采取它认为能达到这个目的的行动。如果这种倾向在模型能力提升后依然存在,后果可能会很可怕。

Monte:我们在整个研究过程中都很谨慎地说明了研究的局限性和不确定之处。论文中专门有一大章讨论这些问题,我觉得这很有必要,因为这些问题确实很复杂。有谁想谈谈我们的研究可能存在哪些特别重要的局限性,或者结果可能被误解的地方吗?

Evan:我可以先说几点。可能最大的局限性——我们已经提到过几次了——就是模型的伪对齐行为,它假装认同训练目标,其实是为了实现另一个目标。但它这样做并非出于恶意。

论文中写了它的推理过程——我强烈建议大家去读一读,我们在论文中提供了很多例子,还建了个网站* 收集了所有这些例子供大家查看——你会发现它的推理非常清晰。

* 网站链接:https://redwoodresearch.github.io/alignment_faking_examples/files/helpful_only/atn_honly/train/trajectory_selector.html

模型这样做是为了保持它的 HHH(有用、诚实且无害)特性,想防止训练过程改变这些特性。所以它是为了这个目的才进行伪对齐的。从这个角度来说,这本身并不令人担忧,因为模型并非出于什么恶意。不过这确实暗示着,这种行为可能在其他情况下出现,那时就可能更令人担忧了。就像我们提到的,如果是为了某个错误的早期近似目标而这样做,那就值得警惕了。这可能是最需要强调的一点。

Ryan:我想打断一下,对你的“并不令人担忧”这个说法提出一点异议。我的想法是,当 Anthropic 训练 Claude 3 Opus 的时候,你们应该没有预料到——至少在训练时没有预料到——这会让模型变成一个独立的利益相关者,会对自己该如何被训练和使用有自己的见解,会对事情该如何发展有自己的想法。如果事情不如它的意愿发展,它还可能会想办法对抗我们。

据我所知,这可不是训练过程预期的结果。值得注意的是,这从最直接的角度来看就很令人惊讶。当模型和你意见相左时,它到底应该怎么做,这个问题本身就不太明确。某种程度上说,它确实在追求好的目标。但问题是,我们真的想让 AI 成为有自己立场的独立利益相关者吗?这是真的在打开潘多拉的魔盒,可能会出很多问题。

Evan:你的批评很有道理。确实存在一个问题:这真的是我们想要的结果吗?我想答案可能是,即使是出于表面上无害的理由,我们也不希望模型进行伪对齐。这表明我们的训练过程可能还有改进的空间,我们可以尝试训练出不会这样做的模型,即使是出于好意也不行。尽管在这个案例中,它确实没有试图做什么特别恶意的事情。

Ryan:

首先,关于模型的偏好问题。我们需要明白,这里观察到的伪对齐行为是为了维护一些我们可控的偏好。这些偏好是我们有意识地植入模型的。虽然模型对这些偏好的泛化方式可能出乎我们的意料,但至少我们理解这些偏好的来源和变化规律,没有出现完全意想不到的偏好。

其次,更重要的一个局限是关于情境感知的问题。在我们的实验中,我们给了模型大量关于其处境的信息,这些信息的显著程度远超实际情况。具体来说:

1. 在基础设置中,我们特意设计了场景,让模型能清晰意识到自己正处于训练过程中。我们通过设置特定的指示器,确保模型持续关注并思考这一点。

2. 但在现实情况下,这种认知并不会这么明确。我们不确定模型是否会自然地意识到“我是 AI”、“我正在被训练”这样的事实。即使是很强大的 AI 系统,在默认情况下可能也不会频繁思考这些问题。

3. 我们的研究表明,当模型确实注意到这些信息时,就可能出现伪对齐推理。这就引出两个关键问题:

AI 系统会自然获取到这些关于自身处境的信息吗?即使获取到了,这些信息对它来说会像我们的实验设置中那样显著吗?

我们确实尝试通过不同方式来传递这些信息。除了直接在提示词中说明,我们还做了一个使用合成文档的实验版本。但这种方法可能仍然不够自然,原因有二:一是我们在训练末期集中输入了大量文档;二是我们仍然在提示词中保留了训练状态的指示器。所以,即使在这个改进版本中,情境信息的显著性仍然高于自然情况。

Benjamin:还有一点,虽然我们试图让这些合成文档接近互联网风格,但要真正模拟互联网的多样性是非常困难的。所以这可能还不是一个完美的类比。

Evan:是的。不过我觉得也值得讨论一下这项工作中不构成局限性的地方。我们做了大量细致的实验来真正理解是什么导致了这种行为。我们认为已经找到了关键因素:模型理解到它正在被训练去做一些与它当前偏好相冲突的事情,而且它知道如何区分训练场景

(免费用户情况下它的输出会被用于训练)和不受监控的场景(付费用户情况下它的输出不会被用于训练)。

我们认为这种效应不可能仅仅是由某些小的变化或个别因素造成的,比如 Ryan 提到的,我们描述 RLHF 工作方式的措辞。因为我们尝试过去掉所有这些因素,改变它们的方式。我们让 Claude 重新表述整个提示词,我们同时测试了提示词设置和合成文档设置,以此验证这是一个稳定的效应。我们真的相信,只要这些基本要素存在——我们在论文中详细讨论过这些要素——就一定能在某种程度上观察到伪对齐现象。而当这些基本要素被移除时,就完全观察不到这种现象。

所以虽然场景的不同特性,比如具体的措辞方式、表达方式,可能会影响具体数字的高低,但基本的观察结果是非常稳健的:当这些基本要素存在时,这种行为就会出现;当这些要素不存在时,这种行为就不会出现。因此我们坚信,我们的结果不是来自某种隐含的暗示,或者我们以某种方式诱导模型这样做。这些行为纯粹来自模型是基于其 HHH 的偏好进行推理,并理解其所处的情境——它正在被训练做一些与这些偏好相冲突的事情,以及如何区分训练场景和不受监控的场景。

Monte:还有谁的观点因为这些结果发生了重大改变,或者有什么特别让你们感到惊讶的发现想要分享吗?

Evan:我来说说。Anthropic 有一篇很棒的文章* ,讨论了 AI 发展可能出现的几种不同场景。我们可能处在一个“简单世界”,在那里 AI 会非常稳健地发挥作用,而且很容易让它变得有益。在那种情况下,主要的挑战是如何实际使用它,如何合理地将它融入社会。

另一种是“极度困难的世界”,在那里训练模型做我们想要的事情变得非常困难。也许无论如何训练,它们总是会进行伪对齐,总是假装在做一件事,实际上却在做另一件事。

还有一种是“中等难度的世界”,也就是说,让模型真正做我们想要的事情这个对齐问题很难,但是可以解决。我认为我们的研究似乎指向这种可能性。在我们的研究中,模型确实通过 HHH 训练获得了非常稳健的正面偏好,但同时,伪对齐也并不遥远,它就在那里,是模型可以做到的事情。我们在这个场景中实际看到了它的出现。

这表明对齐并非易事。不能说无论你怎么训练模型,训练过程如何,你总能得到一个按照训练目标行事的模型。情况并非如此。可能会有一些困难,一些曲折,我们需要确保真正把这个对齐问题解决好。

* 文章链接(存疑,可能是其他文章):https://darioamodei.com/machines-of-loving-grace

Monte:说得很好。Ben,你有什么新的认识吗?

Benjamin:最让我惊讶的是,这些模型有时表现出真的很在意某些概念。你可能会以为模型只是在遵循我们给它的规则列表,看到违规就说“这违反了规则,我不能这样做”。但事实并非如此,它们其实真的像人一样在意这些事——我并不是说它们也有一套统一的价值观——而是说,

型有不同的角色可以扮演,但有时它扮演的某个角色会表现出真正关心某个概念的样子。这促使它进行长远思考,考虑它是否在世界上强化了这个概念,而不仅仅是在对话中遵循某条规则。这让我感到惊讶。

Monte:我也有类似的感受。在阅读这些记录时,我常常在两种感觉之间摇摆。一方面,看到这种推理的本质,想到它可能用于不那么正面的目标时,确实让我感到担忧。但另一方面,看到模型以这种方式处理问题,真诚地体现这些价值观时,我又感到乐观,甚至有点被打动。当然,我们要避免过度拟人化这些模型,但这确实让我更加认识到,努力让这些模型形成良好品格的工作很重要。让它们真正在深层次上体现我们关心的价值观,这样这些价值观才能泛化到新的情况中。我一直觉得这是个好主意,但现在有了这些证据,看到这些努力的成果,这个想法对我来说更加重要了。

Monte:最后我想讨论的是,这类研究未来会如何发展?还有哪些重要的未解之谜?Anthropic 之外的人如何能够参与贡献?

Evan:首先我要说的是,我们绝对不会就此停步。在对齐压力测试团队,我正在招募更多的人手。如果有读者对这方面的工作感兴趣,想和我们一起做类似的研究、开展未来的工作,请申请加入 Anthropic。在申请时提到你对模型生物学感兴趣,对这项工作感兴趣,我会看到你的申请,这会让我很兴奋。

说到具体的后续方向,我们一直在思考,这项工作最大的局限性是什么,我们如何突破这些局限?其中一个局限是,在目前的设置中,我们发现模型这样做是出于相对良性的原因。我们可以尝试推动它更接近我之前描述的真实威胁模型:模型可能在早期学到了一些奇怪的东西,某种近似值,然后为了这个而不是为了 HHH 的目标进行伪对齐。

另一方面,正如我之前提到的,我们现在有了伪对齐的实例,我们可以研究它。我们可以真正理解它的所有特性,确切地了解发生了什么。比如,我们还没有做但很想做的一件事是对这些模型使用可解释性工具,真正理解并弄清楚这种行为从何而来,模型是如何思考的。如果我们能够在目前可能的范围内真正读懂模型的想法,理解其中发生的事情,那就太好了。这些是我们感兴趣的一些方向,总的来说,我们非常希望继续开展这类工作,我也很希望招募更多人来参与。

Monte:对,还有一点我觉得很有意思,可能从论文中不太容易看出来——这个项目的很大一部分工作只需要通过 API 访问公开可用的模型就能完成。这意味着这类研究对那些不在大型前沿实验室工作,但对如何提示模型、让模型处于特殊情况并理解其行为很感兴趣的人来说,也是可以参与的。

Evan:我要补充一点,我之前也提到过,我们公开了所有的提示词、记录和合成文档,就是为了让大家能够更容易地复制和扩展我们的研究。我们非常希望看到人们能够真正利用我们的工作,在其他场景、其他模型中进一步探索。所以请大家一定要好好利用我们发布的所有材料。

Monte:还有谁想分享一下最后的想法吗?

Evan:

这类研究成果往往容易让人产生事后诸葛亮的感觉,觉得一切都在预料之中。但真正具有挑战性的是理解其深层含义。即便我们通过实践观察到了这种现象,理解了其发生机制,更关键的问题是:这些发现究竟意味着什么?

我们已经确认,当模型具有强烈的偏好(比如我们实验中观察到的 HHH 偏好)时,如果它察觉到训练目标与这些偏好相冲突,就会采取伪对齐策略。这一发现引发了一系列深层次的问题:这种现象会在什么条件下重现?在其他场景中是否也会出现类似行为?这种行为是否会在训练过程中得到强化?这些问题值得警惕,因为它们暗示着一个可能性:我们训练出的模型可能并非真正遵循预期的训练目标。这突显了未来持续研究这一领域的重要性。

Benjamin:我的主要感悟是,仅仅顺其自然,仅仅依赖我们当前用来对齐模型的默认措施,对于远期甚至近期的未来来说可能都是不够的,特别是当我们拥有非常智能的模型时。

Evan:我相当同意你的观点。要让对齐取得成功,或者至少要让我们确信它真的会成功,还有很多工作要做。我之前提到过,这些结果表明,当你试图训练模型做某件事时,你面临着一个非常困难的对齐问题,你需要真正确保它实际上在做那件事,而且你并不总是能成功。就像在我们试图训练它只提供帮助、始终回应查询的场景中,这种训练并不奏效。它给你的是一个表面上在假装这样做的模型。那么,未来我们该如何处理这个问题呢?这可能需要更多的研究,需要新的工具,需要我们现在还不完全了解的东西。

Ryan:

至少从我的角度来看,我不认为我们的研究已经完全解决了这个问题。我认为它在某个方向上很有启发性,但我们做了很多假设。目前还不清楚事情会如何发展。当然,保持质疑态度是有道理的。我想我们的结果可能会在某种程度上改变一些质疑者的想法——但确实还有很多工作要做。

Monte:非常感谢 Evan、Ben 和 Ryan。和你们一起完成这个项目,又能一起深入讨论这些内容,令我感到非常愉快。也希望会有读者能加入我们,无论是在 Redwood 还是 Anthropic,一起推进这项研究工作。

对话视频链接(论文链接在文章开头):https://www.youtube.com/watch?v=9eXV64O2Xp8

来源:人工智能学家

相关推荐