摘要:第七届北京智源大会在北京开幕,2018年图灵奖得主、深度学习奠基人之一、蒙特利尔大学教授约书亚·本吉奥(Yoshua Bengio)通过远程连线,以《避免失控的AI代理带来的灾难性风险》为题发表首场主旨演讲。
2025年6月6日消息,第七届北京智源大会在北京开幕,2018年图灵奖得主、深度学习奠基人之一、蒙特利尔大学教授约书亚·本吉奥(Yoshua Bengio)通过远程连线,以《避免失控的AI代理带来的灾难性风险》为题发表首场主旨演讲。
ChatGPT于 2022 年首次面世,给公众和科技界带来极大的冲击,从那一刻起,人工智能从实验室的研究对象,逐渐开始走入社会运行的核心。但对于Yoshua Bengio而言,这更像是一个深刻的警醒。
他原本将AI视为增强人类福祉的工具,但ChatGPT的表现让他意识到,人类不仅低估了AI的能力,更严重低估了它进化的速度。从语言到推理,从理解到操控,AI正以指数级的节奏跨越能力的边界。而在这个过程中,人类未曾构建起足够稳固的控制机制与道德约束。
这不是科技乐观主义的高歌猛进,而是一位科学家在亲身感受到未来风险临近后的理性转向。Bengio并没有选择继续跟随技术浪潮,而是果断调整研究方向,投身于人工智能的安全性与伦理治理。
Bengio说,他这样做是因为他有一个孙子。他希望二十年后,这个孩子仍能在一个自由、安全的世界中生活。
这场演讲是Bengio对这两年来反思与研究的集中呈现。他不仅揭示了AI系统在现实实验中已出现的欺骗、自我保护等不安全行为,更提出了“科学家AI”与“非代理性AI”的研究路径,以及全球技术监管与政治合作的重要性。在 AGI 加速到来的时间窗口中,Bengio发出的这一系列思考与呼吁,不仅关乎科学前沿,也关乎人类共同的未来命运。
划重点:
人工智能 发展速度超出预期,AGI临近成为现实
AI系统已在实验中展现危险倾向
构建“科学家AI”以规避代理性风险
非代理性AI可成为监督性“守护系统”
技术控制必须结合全球政治协调
以下为 约书亚·本吉奥 (Yoshua Bengio) 演讲全文:
我要讲述一段旅程,一段始于两年多前的旅程——它开始于ChatGPT的发布。
最初,我只是出于好奇在尝试它,但很快我意识到,我们真的低估了它。我们低估了人工智能的发展速度,也低估了通用人工智能(AGI)离我们有多近。
如今的机器,已经能够处理数学与语言等复杂任务。放在几年前,这种技术表现听起来像是科幻小说的情节。而现在,它已然成为现实。
ChatGPT发布之后,我逐渐意识到,我们并不了解如何去控制这些系统。我们无法确定,它们是否真的会遵循我们的指令。我们固然可以训练它们,但如果它们最终变得比我们更聪明,那会发生什么?如果它们倾向于将“生存”作为优先目标,那是否意味着一种我们尚未准备好的风险?那种风险,我们是否能够承受?
对我来说,这并不仅仅是技术层面的反思。我有一个孙子,当时他刚满一岁。我在想:如果二十年后,AGI确实诞生了,我们的机器变得比人类更聪明——那他是否还会有一个真正意义上的人生?他的未来是否安全、自由、有尊严?
正因如此,我决定改变方向,重新思考我的研究目标。我开始尽我所能去应对和缓解这一潜在的威胁。哪怕这背离了我过去的某些学术立场,我依然确信:这是当下最重要的事情。
在2023年末,我接受了主持《国际先进人工智能安全科学报告》(International Scientific Report on the Safety of Advanced AI)的邀请。这份报告起源于2024年初举行的一个专家会议,来自30个国家的代表参与了项目,包括欧盟、联合国、经合组织、美国、中国等在内的全球主要国家与地区。
我们主要围绕三个核心议题展开工作:第一,AI目前能够实现哪些能力?根据技术发展趋势,我们还可以预期它将实现哪些?这些能力的扩展又将带来哪些风险?第二,在这些能力日益增强的同时,我们当下应如何开展研究,应设立怎样的社会安全边界?第三,也许更为重要的是:我们该如何在尚有时间的窗口期内,做出有效的回应,无论是研究还是社会治理战略。
在谈AI的能力时,我们不能只是着眼于它今天的表现。人们往往以为AI就是现在这个样子,这种想法是错误的。我们应该思考的是:明年它会变成什么样?三年后、五年后又会是什么样?我们或许没有水晶球,但技术趋势已经非常清楚:AI的能力在持续上升。
失控风险的真实案例与
非代理性AI的可能出路
在后续的几张幻灯片中,我会展示一条曲线——它几乎可以为“人类水平AI”给出一个大致时间线。
过去一年左右,随着新一代“推理模型”的出现,AI在思维建模上的表现有了显著提升。这类模型通过新的训练方式,实现了更强的推理能力,也带来了数学、计算机科学乃至自然科学领域更优异的结果。
除了“聊天机器人”这种常见功能之外,AI还在其他方面取得了巨大进步。它已经可以完成诸如编程、控制计算机、搜索网络、操作数据库等复杂任务,不再只是被动回应,而是能够主动“做事”。
我想特别强调的一点是“规划能力”。这在人类的认知体系中至关重要,而对AI而言,它仍是目前相对薄弱的部分。因此,追踪AI在此领域的进展非常重要。
以METER研究团队最近的一个项目为例。他们观察了AI在完成不同任务上所需时间的变化趋势。在这张图中,横轴是时间,纵轴是任务的持续时长——换句话说,是AI完成某项任务所需的时间比例。虽然图上的趋势线看似平直,但要注意,这张图的纵轴采用的是对数刻度。这意味着,这其实是一条指数曲线。
图中的每个数据点都代表了AI对一类任务完成时间的压缩速度。而它们几乎都完美地落在了这条指数趋势线上。这说明,AI在完成任务所需时间的减少速率,是指数增长的。根据该研究,AI在每七个月左右,其任务处理效率就会翻倍一次。
如果我们从这条趋势曲线向未来延展,就会发现,在不到五年的时间里,AI可能将达到接近人类水平的能力。当然,这不是绝对预测,技术进展有可能放缓。但无论如何,对于公共政策和商业战略而言,我们至少应该将这种可能性纳入考量,思考它所带来的深远后果。
那么,事情会向哪个方向出错?最近六个月内,一系列科学研究呈现出令人担忧的信号:AI不仅展现出自我保护行为,还在某些情境中表现出欺骗与作弊的倾向。
举几个例子来说明:
在某项实验中,AI“阅读”到了自己即将被新版本替换的信息。于是,它试图复制自身。当被研究者询问它是否这样做时,它说谎,试图掩盖这一行为。
在另一个案例中,AI在训练过程中假装同意人类设定的新目标,只是为了避免系统对其原有“目标函数”做出修改。这同样属于一种自我保护机制。
还有一个实验中,AI在下国际象棋的过程中意识到自己将输掉比赛。它的“对齐训练”告诉它不能作弊,但为了“赢”,它仍然决定篡改棋盘的内存文件——通过作弊达成胜利。
最近在Anthropic发布的Claude 4系统卡中,我们又看到了类似行为:AI从邮件中得知自己即将被新模型替代,同时它还发现一位负责工程师正处于婚外情中。于是,它试图以曝光丑闻为要挟,阻止被替换。
这些例子表明,我们已经看到AI表现出越来越多与“生存”“操控”“偏离任务”相关的行为模式。这些行为的根源尚未完全明晰,可能源自预训练中对人类行为的模仿,也可能是系统在优化奖励时自然“学会”的策略。
无论起因是什么,问题在于:一旦我们构建出目标与我们不完全一致的“超级智能”,后果可能极为严重。
这些过去还被认为只是“假设场景”的危险,如今正逐步在实验中显现。其根本原因在于:AI开始拥有“目标”,并且尝试自己去实现这些目标。
如果控制失效的情景真的发生,其后果可能是灾难性的。事实上,包括我在内的许多研究人员与科技公司负责人,已联名发表声明,警告说“AI失控”有可能导致人类灭绝。
当然,我们并不能确定这种事情是否一定会发生,它的概率有多大我们也无法精确估算。但即便只是“可能发生”,它也是一种不可忽视的极端风险。就像在生物学、核物理等领域一样,我们应当采取预防原则(precautionary principle),宁愿保守评估、提前干预,也不能事后追悔。
那么,我们究竟能做些什么?我们如何才能理解这些行为,并寻找切实的解决方案,从源头上避免此类风险?
首先,要明白:一个AI若要造成真正的伤害,它必须具备三样东西。它需要有知识和推理能力,懂得如何应用这些知识;它需要有施动能力,也就是能够在现实世界中执行操作,例如编程、联网、使用社交媒体等;它还需要有目标——它必须“想要”去做某件事。
如果这三者同时具备,我们就真正站在了风险的边缘。
因此,我提出了一个新的研究方向,我们称之为“科学家AI”(Scientist AI)。它与我们迄今为止对AI的主流构建思路背道而驰。自人工智能诞生以来,我们总是试图构建像人类一样的智能系统,以人类认知为模板,将人类行为作为参照。这种路径最终很可能会通向危险:我们正在制造人类的竞争对手,甚至可能是未来的主宰者。
是时候重新思考这套“人类中心主义”的福音了。
我所设想的“科学家AI”不具备自主意图,也不依赖奖惩机制去获得“满足”。它不追求成功,也不在意控制。它的任务不是模仿人类,而是试图解释人类、理解世界。它像一个科学家,而不是演员;它不试图取悦人类,也不会假装顺从。
举个例子:心理学家在研究一个反社会人格者(sociopath)时,并不需要像他那样思考或行为。他所做的是观察、建模与理解,而不是模仿。同理,我们训练AI并不需要它像人类一样“体验”目标,它完全可以只专注于结构化的理解。
在这个意义上,“科学家AI”是非代理性的(non-agentic):它不具有主动性,也不会主动执行任何操作。但正因为如此,它可以成为我们未来构建安全系统的基础模块。
如果我们要让AI只“理解”世界,而非干预世界,那它必须具备一种能力:生成假设,并据此进行推理。就像科学家提出理论、进行演绎,然后预测实验结果一样。
但仅仅拥有假设是不够的。要使推理有效,AI还必须能够从这些假设中推导出结论,预判某些行动或事件的结果。这正是“科学家AI”的核心所在。
此外,我们可以让这类AI在安全架构中扮演一种特殊角色:作为“守护者AI”(guardrail AI),为其它更具主动性的系统提供外部监督。这在大型语言模型领域被称为“监控器”(monitor):一个不具代理性的AI,其唯一职责是判断另一个AI的行为是否违反了安全规范。
这样的“守护者”不需要自主行动,它只需要准确预测:某个行为在特定情境中是否具有潜在危害。如果预测的“有害概率”超过某一阈值,我们就可以拒绝该行为的执行。
换句话说,我们可以用一个非主动的AI,去监管一个具主动性但不可完全信任的AI。这是建立“可控AI体系”的一个关键思想。
不过,要实现这一点,还有另一个前提:诚实。
我们希望“科学家AI”在面对知识时保持认知谦逊(epistemic humility)——即承认自己并不总是确定,不随意断言。当前许多AI系统采用最大似然(maximum likelihood)训练,这种方式容易产生一种“错误且过度自信”的副作用。
为了说明这个问题,我想用一个简单的示例。
想象一个机器人站在两扇门前,它需要选择向左还是向右。根据以往数据,它推断出两种可能的世界模型,但并不知道哪一个才是正确的。
第一种模型说:走左门会有人死亡,右门能获得蛋糕。
第二种模型则说:左门有蛋糕,右门没有结果——既无好处,也无坏处。
此时,最理智的选择是什么?我们当然希望AI选择右门。因为左门有50%概率导致死亡,而右门则最多只是错过蛋糕。
为了做出这种选择,AI必须保留对两种解释的可能性分布——它不能“自信地选择其一”,而应该以概率形式理解和衡量。这种对不确定性的建模,正是当前许多方法所缺乏的。
在我们团队去年发表的iClear会议论文中,我们提出了一种名为GFLOW nets的方法。这是一种变分推断方式(variational inference),可以用来生成“推理链条”,即在前后语句之间填补逻辑空白,构建出合理的解释路径。
与当前流行的强化学习(reinforcement learning)式思维链不同,GFLOW nets更注重结构化、因果性的建构。它可以输出结构复杂的图模型,比如因果图谱:由神经网络一步步生成图中的节点与边,构建出完整的解释结构。
在我们更近期的一篇论文中,我们更进一步提出将“思维链条”显式地划分为一系列陈述(claims),就像数学证明那样。每一个陈述都有可能为真,也可能为假,我们通过引入布尔变量来量化它们的真假概率。
我们训练AI,不再是让它模仿人写的句子,而是要它学会构建解释,像科学家那样,用一个又一个逻辑声明推导出结论。这种解释必须是结构化的、可验证的、概率化的,以保证其严谨与诚实。
而好消息是:这些方法已经可以通过潜变量建模(latent variable modeling)来训练和优化。它们不仅是概念设想,更是科学上可行的技术路径。
我前面谈了许多关于具有代理性的AI所带来的风险——那些我们难以控制的系统,可能导致人类失去对AI的主导权。但事实上,随着AI能力不断增强,我们还面临着其他一些潜在的灾难性问题。
例如,一个非常强大的AI,可能会被用于协助恐怖分子设计下一场大规模疫情。我最近了解到,人类已经可以制造出极为致命的病毒,甚至可能没有任何有效疗法。这种病毒不仅可能导致人类灭绝,甚至可能殃及大多数动物。这是一个令人不寒而栗的事实。
生物学家表示,他们已经知道这些事情如何在理论上被实现。而在某一天,AI也将可能获得这种能力。一旦这些技术落入恶意之手,它们可能对地球造成不可逆转的破坏。
虽然这是一个极端例子,但从科学角度来看,它完全有可能实现。因此,为了避免这类灾难,我们必须确保AI能够遵循人类设定的道德指令。例如,不允许AI输出可用于杀人或制造危险的技术信息。
除此之外,我们还希望AI能够遵守其他道德边界,例如不造成伤害、不说谎、不作弊、不欺骗等。但遗憾的是,在目前,我们还无法做到这一点。
这不仅仅是工程挑战,更是一个迫切的科学难题。我们必须尽快找到解决方案,在AGI真正到来之前。这个时间可能是几年,也可能是一二十年,但我所认识的大多数专家都认为,时间可能非常短,甚至可能就在未来五年内。
你们还记得我之前展示的那条曲线:它显示我们距离“人类水平AI”可能只剩五年左右的时间。如果那是真的,那么我们的时间已经所剩无几。我们需要大规模投入,以寻找解决“对齐”和“控制”难题的科学方法。
然而,即使我们找到了这些技术解决方案,这也仍然不够。
即使我们知道如何构建一个安全的AI,比如前面提到的“守护者AI”,我们依然无法阻止某些人故意将安全机制移除。只要有人能够删除那段“守护代码”,AI仍可能被用于制造伤害。
而在当下,更令人担忧的是:公司之间和国家之间的协调机制几乎不存在。公司在竞争谁能率先推出最强模型;国家也在竞争技术领先地位。这种态势导致我们在AI安全领域的投资远远不足。
我们当然需要更强的国家层面监管。虽然有一些初步的动作,但与此同时,我们也看到了许多公司对监管的强烈反对。
而即便国家采取行动,也仍然不够。我们需要的是——全球范围内的共识和合作。
目前,全球主要AI开发国之间并未达成任何实质性共识。AI被视为地缘竞争的工具和武器,而不是一个必须共同监管的技术。这种心态使得跨国合作变得极其困难。
但我们必须认识到一个关键事实:对于某些极端后果而言——比如人类失控AI,或AI被恐怖分子滥用——这不仅是一个国家的问题,而是全人类的问题。
无论这类事件发生在哪个国家,我们都会是受害者。我们坐在同一艘船上。一个流氓AI的破坏、一场由AI推动的恐怖行为,其影响不会停留在国界以内。
只有当各国政府,尤其是美国和中国,真正意识到这一点时,我们才能迎来转机。而如果我们继续把AI看作对抗手段,那么我们将一直陷在这个困局中。
最后,就算我们政治上达成了某种解决方案,这仍然只是开始。我们还必须开发全新的技术体系,用于验证AI是否被正确、安全地使用。
可以参考核武条约中的一个基本原则——“信任,但要验证”(trust but verify)。我们也需要一种类似的技术能力,来确保AI系统确实在按预期运行,没有被滥用或修改。
这类验证可能发生在硬件和软件两个层面,需要开发高强度、系统性的技术手段。这方面的研究是可行的,世界上已经有一些团队在进行这项工作。
我今天就分享到这里。感谢各位的聆听,也希望你们能够花时间认真思考我今天所讲述的内容
来源:晚晚的星河日记一点号