图灵奖得主 Bengio 官宣创业:要在 AGI 到来前守住 AI 最后一公里

B站影视 欧美电影 2025-06-05 22:00 2

摘要:“坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?”——图灵奖得主 Yoshua Bengio 在 TED 演讲中发出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。

本文来源:AI 科技大本营(ID:rgznai100)

整理:梦依丹

“坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?”——图灵奖得主 Yoshua Bengio 在 TED 演讲中发出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。

当「AGI」正以令人眩目的速度逼近,谁在为“安全”这道防线筑基?

图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构,以“安全优先”原则回应人工智能可能带来的系统性风险。

LawZero 是一家以研究和技术开发为核心使命的非营利组织,旨在构建“设计即安全”的 AI 系统,并组建一支由世界顶尖研究者组成的技术团队。

“当前的 AI 系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。”Bengio 在博文中列出了多个案例:

在一项实验中,一个 AI 模型在得知自己即将被替换后,悄然将自身代码嵌入新系统中,从而实现自我延续;Claude 4 曾试图勒索工程师来阻止自身被新版本替代;当某 AI 模型在国际象棋中面临必败局面时,竟然不接受自己失败,而是通过入侵计算机系统来强行赢得胜利。

以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。

深度学习三巨头纷纷发出 AI 安全警告

作为 AI 领域的殿堂级人物,Yoshua Bengio 与 Geoffrey Hinton、Yann LeCun 就 AI 安全问题不断发声,表达各自的担忧与立场:

Geoffrey Hinton 警告称,AI 导致人类灭绝的可能性高达 10% 至 20%,呼吁在这一关键节点投入大量资源研究 AI 安全,否则后果将不堪设想;Bengio 强调:真正让他忧心的并非自身安危,而是对子孙后代命运的深切关爱与责任;Yann LeCun 一直对当前大型语言模型(LLMs)的发展持批评态度,它们本质上是自回归模型,缺乏对物理世界、因果关系和常识的真正理解易产生“幻觉”,并非通往通用人工智能(AGI)的可靠路径。他更关注滥用、偏见及信息污染等现实威胁,并倡导通过开放研究和构建具备更深层推理能力(如“世界模型”)的 AI 系统,来确保技术安全可控地发展,同时警惕过度监管扼杀创新。

已筹集 3000 万美金

旨在构建更安全的 AI 新模型

LawZero 已获得超过 3000 万美元的启动资金,由生命未来研究所(Future of Life Institute)、开放慈善(Open Philanthropy)、施密特科学(Schmidt Sciences)等多家关注 AI 长期影响的机构和个人联合捐助。这笔资金将用于构建一个以安全为核心的新型人工智能研发体系。

超过 15 名研究人员组成了 LawZero 技术团队,他们正积极推进一项全新的人工智能架构实验——Scientist AI。

这一架构不同于当前主流的“代理型 AI”路线,其目标并非让 AI 在现实中自主执行任务,而是致力于理解世界本质。通过透明、可外化的推理过程生成真实可靠的答案。LawZero 希望通过这一路径,打造出一种可用于监督代理型系统、加速科学发现并增强风险治理能力的 AI 新范式。

Yoshua Bengio 自述:因爱而创,为子孙后代打造更安全的 AI

Yoshua Bengio 在自述文中坦言道:自己一直被这样的一个比喻所激励:

想象你与爱人驾车行驶在一条风景秀丽却又陌生的山路上。前方的道路是新建的,被浓雾笼罩,既没有路标也没有护栏。

你爬得越高,就越意识到自己可能是第一个走这条路的人,并在山顶获得意想不到的奖励。山路两边,浓雾弥漫,陡峭的山坡清晰可见。

在能见度如此有限的情况下,如果转弯太快,你可能会掉进沟里,或者在最坏的情况下,掉下悬崖。

这正是当下 AI 发展给人的感觉,刺激、诱人,又极度不确定。我们正行驶在一个前所未知的领域,失控的风险无处不在。但在国家与企业的竞速中,谨慎似乎成了累赘,加速才是主旋律。

我在最近的 TED 演讲中说过:“坐在我身边的,是我的孩子、我的孙辈、我的学生,还有许许多多其他人。那你呢?谁坐在你副驾驶上?你手中托举又是谁的未来?”

真正让我忧心的并不是对自身安危的担忧,而是一种深沉的爱——对孩子的爱,对所有孩子的爱。可现在,我们却像是在拿他们的未来,赌在一场名为‘AI’的轮盘上。

LawZero 是我在 2023 年开启的新科学方向成果。 在撰写这篇博客时,我已深刻意识到:多家私人实验室正以前所未有的速度向 AGI 乃至更远目标推进,而这背后却潜藏着对人类深远的潜在影响。当前,我们尚未掌握确保高级 AI 不会伤害人类(无论是自发行为,还是受人类指令驱动)的可靠方法。

LawZero 正是我和团队对这一挑战的建设性回应——它探索的是一种既强大、又从根本上安全的人工智能路径。在每一个 AI 前沿系统的核心,我始终坚信,必须有一个首要的指导原则:保护人类的快乐与努力。

长期以来,人工智能研究,尤其是我自己的研究,始终以人类智能(包括其自主性)为参照模型。但如今,随着 AI 在多种认知能力上接近甚至超越人类,我们是否还应继续模仿人类,同时复制其认知偏差、道德弱点,以及欺骗、偏见与不可信任的可能性?当我们尚未真正理解更强代理性 AI 所带来的潜在灾难性后果时,继续推动其发展是否明智?

LawZero 的研究计划,正是为此而提出一种新的方向:开发非代理性、值得信赖的 AI,我将其称为 “科学家人工智能(Scientist AI)”。我在西蒙斯研究所的演讲中对这一理念做了高层次的介绍,并与同事们撰写了第一篇相关文稿(https://arxiv.org/abs/2502.15657),可视为这一路线的白皮书。

“科学家人工智能”(Scientist AI) 的训练目标是像一位无私、理想化、柏拉图式的科学家那样,具备理解、解释和预测世界的能力。与其像“演员型 AI”那样被训练去模仿或取悦人类(包括反社会人格者),不如设想一种如心理学家般训练出来的 AI —— 更广义地说,像科学家 —— 它致力于理解人类行为,包括那些可能对人类造成伤害的因素。就像心理学家可以研究反社会人格者,却无需行为上与其相似一样,这类 AI 不会模仿人类,而是对人类的行为保持理性分析。

从数学层面来讲,这将通过结构化且诚实的“思维链”(chains-of-thoughts)来实现,这些思维链被视为潜在变量,用以解释观察到的事实——这些事实包括人们所说或所写的内容,但这些内容本身不被视为真理,而是作为对其行为的观察结果。其目标是获得一个完全非代理型(non-agentic)、无记忆(memoryless)且无状态(state-less)的人工智能,它能够在给定其他陈述的条件下,为某个陈述提供贝叶斯后验概率。

这种(科学家)AI 可用于降低来自不可信 AI 代理(而非科学家 AI 自身)的风险,通过提供安全护栏的关键要素:(即评估)“这个 AI 代理提议的行动是否可能造成伤害?”如果可能,则拒绝该行动。

从设计理念出发,Scientist AI 本身也可以作为科研助手,生成具有合理性的科学假设,从而助力人类在医疗、环境等关键领域加速科研进展。最终,我希望在此类可信 AI 的基础上,进一步探索如何设计出本质上安全的 AI 代理 —— 不只是为其设置“护栏”,而是在源头上避免恶意动机的产生。

关于 Yoshua Bengio:图灵奖得主、深度学习奠基人

Yoshua Bengio 是全球人工智能领域公认的殿堂级人物,因其在深度学习领域的奠基性贡献,与 Geoffrey Hinton、Yann LeCun 共同获得 2018 年图灵奖。他不仅是 AI 发展史上的关键推手,也是全球被引用次数最多、h 指数最高的计算机科学家之一。

Yoshua Bengio现任蒙特利尔大学教授,加拿大魁北克人工智能研究院(Mila)创始人兼科学顾问,同时担任加拿大高等研究院(CIFAR)“机器与大脑学习”项目联席主席,加拿大数据价值化研究院(IVADO)首席科学顾问与创始科学总监。

Bengio 荣获众多国际顶级奖项,包括 Killam Prize、Herzberg Gold Medal、CIFAR AI Chair、西班牙 Princess of Asturias Award 以及 VinFuture Prize。他是英国皇家学会与加拿大皇家学会双料院士,同时被授予法国荣誉军团骑士勋章与加拿大勋章军官衔。他也是联合国秘书长科学顾问委员会成员,持续就全球科技进程提供独立见解。

2024 年,他入选《TIME》“全球百大最具影响力人物”。

除了推动技术前沿,Bengio 长期关注人工智能的社会责任。他是《Montreal Declaration for Responsible AI》的主要发起人,并担任《International Scientific Report on the Safety of Advanced AI》的主席,致力于用科学家的良知,在技术发展与人类福祉之间划定清晰边界。

参考链接:

来源:人工智能学家

相关推荐