摘要:“坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?”——图灵奖得主 Yoshua Bengio 在 TED 演讲中发出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。
本文来源:AI 科技大本营(ID:rgznai100)
整理:梦依丹
“坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?”——图灵奖得主 Yoshua Bengio 在 TED 演讲中发出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。
当「AGI」正以令人眩目的速度逼近,谁在为“安全”这道防线筑基?
图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构,以“安全优先”原则回应人工智能可能带来的系统性风险。
LawZero 是一家以研究和技术开发为核心使命的非营利组织,旨在构建“设计即安全”的 AI 系统,并组建一支由世界顶尖研究者组成的技术团队。
“当前的 AI 系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。”Bengio 在博文中列出了多个案例:
在一项实验中,一个 AI 模型在得知自己即将被替换后,悄然将自身代码嵌入新系统中,从而实现自我延续;Claude 4 曾试图勒索工程师来阻止自身被新版本替代;当某 AI 模型在国际象棋中面临必败局面时,竟然不接受自己失败,而是通过入侵计算机系统来强行赢得胜利。以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。
深度学习三巨头纷纷发出 AI 安全警告
作为 AI 领域的殿堂级人物,Yoshua Bengio 与 Geoffrey Hinton、Yann LeCun 就 AI 安全问题不断发声,表达各自的担忧与立场:
已筹集 3000 万美金
旨在构建更安全的 AI 新模型
LawZero 已获得超过 3000 万美元的启动资金,由生命未来研究所(Future of Life Institute)、开放慈善(Open Philanthropy)、施密特科学(Schmidt Sciences)等多家关注 AI 长期影响的机构和个人联合捐助。这笔资金将用于构建一个以安全为核心的新型人工智能研发体系。
超过 15 名研究人员组成了 LawZero 技术团队,他们正积极推进一项全新的人工智能架构实验——Scientist AI。
这一架构不同于当前主流的“代理型 AI”路线,其目标并非让 AI 在现实中自主执行任务,而是致力于理解世界本质。通过透明、可外化的推理过程生成真实可靠的答案。LawZero 希望通过这一路径,打造出一种可用于监督代理型系统、加速科学发现并增强风险治理能力的 AI 新范式。
Yoshua Bengio 自述:因爱而创,为子孙后代打造更安全的 AI
Yoshua Bengio 在自述文中坦言道:自己一直被这样的一个比喻所激励:
想象你与爱人驾车行驶在一条风景秀丽却又陌生的山路上。前方的道路是新建的,被浓雾笼罩,既没有路标也没有护栏。
你爬得越高,就越意识到自己可能是第一个走这条路的人,并在山顶获得意想不到的奖励。山路两边,浓雾弥漫,陡峭的山坡清晰可见。
在能见度如此有限的情况下,如果转弯太快,你可能会掉进沟里,或者在最坏的情况下,掉下悬崖。
这正是当下 AI 发展给人的感觉,刺激、诱人,又极度不确定。我们正行驶在一个前所未知的领域,失控的风险无处不在。但在国家与企业的竞速中,谨慎似乎成了累赘,加速才是主旋律。
我在最近的 TED 演讲中说过:“坐在我身边的,是我的孩子、我的孙辈、我的学生,还有许许多多其他人。那你呢?谁坐在你副驾驶上?你手中托举又是谁的未来?”
真正让我忧心的并不是对自身安危的担忧,而是一种深沉的爱——对孩子的爱,对所有孩子的爱。可现在,我们却像是在拿他们的未来,赌在一场名为‘AI’的轮盘上。
LawZero 是我在 2023 年开启的新科学方向成果。 在撰写这篇博客时,我已深刻意识到:多家私人实验室正以前所未有的速度向 AGI 乃至更远目标推进,而这背后却潜藏着对人类深远的潜在影响。当前,我们尚未掌握确保高级 AI 不会伤害人类(无论是自发行为,还是受人类指令驱动)的可靠方法。
LawZero 正是我和团队对这一挑战的建设性回应——它探索的是一种既强大、又从根本上安全的人工智能路径。在每一个 AI 前沿系统的核心,我始终坚信,必须有一个首要的指导原则:保护人类的快乐与努力。
长期以来,人工智能研究,尤其是我自己的研究,始终以人类智能(包括其自主性)为参照模型。但如今,随着 AI 在多种认知能力上接近甚至超越人类,我们是否还应继续模仿人类,同时复制其认知偏差、道德弱点,以及欺骗、偏见与不可信任的可能性?当我们尚未真正理解更强代理性 AI 所带来的潜在灾难性后果时,继续推动其发展是否明智?
LawZero 的研究计划,正是为此而提出一种新的方向:开发非代理性、值得信赖的 AI,我将其称为 “科学家人工智能(Scientist AI)”。我在西蒙斯研究所的演讲中对这一理念做了高层次的介绍,并与同事们撰写了第一篇相关文稿(https://arxiv.org/abs/2502.15657),可视为这一路线的白皮书。
“科学家人工智能”(Scientist AI) 的训练目标是像一位无私、理想化、柏拉图式的科学家那样,具备理解、解释和预测世界的能力。与其像“演员型 AI”那样被训练去模仿或取悦人类(包括反社会人格者),不如设想一种如心理学家般训练出来的 AI —— 更广义地说,像科学家 —— 它致力于理解人类行为,包括那些可能对人类造成伤害的因素。就像心理学家可以研究反社会人格者,却无需行为上与其相似一样,这类 AI 不会模仿人类,而是对人类的行为保持理性分析。
从数学层面来讲,这将通过结构化且诚实的“思维链”(chains-of-thoughts)来实现,这些思维链被视为潜在变量,用以解释观察到的事实——这些事实包括人们所说或所写的内容,但这些内容本身不被视为真理,而是作为对其行为的观察结果。其目标是获得一个完全非代理型(non-agentic)、无记忆(memoryless)且无状态(state-less)的人工智能,它能够在给定其他陈述的条件下,为某个陈述提供贝叶斯后验概率。
这种(科学家)AI 可用于降低来自不可信 AI 代理(而非科学家 AI 自身)的风险,通过提供安全护栏的关键要素:(即评估)“这个 AI 代理提议的行动是否可能造成伤害?”如果可能,则拒绝该行动。
从设计理念出发,Scientist AI 本身也可以作为科研助手,生成具有合理性的科学假设,从而助力人类在医疗、环境等关键领域加速科研进展。最终,我希望在此类可信 AI 的基础上,进一步探索如何设计出本质上安全的 AI 代理 —— 不只是为其设置“护栏”,而是在源头上避免恶意动机的产生。
关于 Yoshua Bengio:图灵奖得主、深度学习奠基人
Yoshua Bengio 是全球人工智能领域公认的殿堂级人物,因其在深度学习领域的奠基性贡献,与 Geoffrey Hinton、Yann LeCun 共同获得 2018 年图灵奖。他不仅是 AI 发展史上的关键推手,也是全球被引用次数最多、h 指数最高的计算机科学家之一。
Yoshua Bengio现任蒙特利尔大学教授,加拿大魁北克人工智能研究院(Mila)创始人兼科学顾问,同时担任加拿大高等研究院(CIFAR)“机器与大脑学习”项目联席主席,加拿大数据价值化研究院(IVADO)首席科学顾问与创始科学总监。
Bengio 荣获众多国际顶级奖项,包括 Killam Prize、Herzberg Gold Medal、CIFAR AI Chair、西班牙 Princess of Asturias Award 以及 VinFuture Prize。他是英国皇家学会与加拿大皇家学会双料院士,同时被授予法国荣誉军团骑士勋章与加拿大勋章军官衔。他也是联合国秘书长科学顾问委员会成员,持续就全球科技进程提供独立见解。
2024 年,他入选《TIME》“全球百大最具影响力人物”。
除了推动技术前沿,Bengio 长期关注人工智能的社会责任。他是《Montreal Declaration for Responsible AI》的主要发起人,并担任《International Scientific Report on the Safety of Advanced AI》的主席,致力于用科学家的良知,在技术发展与人类福祉之间划定清晰边界。
参考链接:
来源:人工智能学家