摘要:从与现实难辨的AI视频,到细致到流水与倒影都符合物理的虚拟世界,再到会在推理中主动调用工具自我修正的模型——这并非科幻小说,而是DeepMind最新 的 AI工具 , 已经展现的惊人能力。
从与现实难辨的AI视频,到细致到流水与倒影都符合物理的虚拟世界,再到会在推理中主动调用工具自我修正的模型——这并非科幻小说,而是DeepMind最新 的 AI工具 , 已经展现的惊人能力。
8月13日消息,谷歌DeepMind首席执行官德米斯・哈萨比斯(Demis Hassabis)近日做客播客节目《Release Notes》,全面阐述了DeepMind最新一系列技术突破背后的思路与战略布局,其中世界模型Genie 3的突破性进展成为核心亮点。
在这场深度对话中, 他 勾勒出一个令人振奋又充满挑战的AI新纪元:从AlphaGo征服围棋,到Deep Think斩获数学奥赛金牌;从生成逼真世界的Genie 3,到即将诞生的“全能模型” , 我们正站在通向AGI的关键转折点。然而,即便AI已能创造一个完整的虚拟宇宙,它依然可能在国际象棋中违规行棋,这种“参差型智能”的悖论,正揭示了人工智能最深层的秘密。
哈萨比斯 指出 , “思考型模型” ( the thinking models ) 是通向通用人工智能(AGI)的必经之路 ; DeepMind的终极目标是推出 融合语言、多媒体、物理推理与生成能力的全能模型(Omni Model) ,其核心支撑正是世界模型的持续进化,最终将实现全面且一致的智能表现,推动 通用人工智能( AGI ) 安全落地。
此次访谈 由谷歌AI Studio产品负责人洛根・基尔帕特里克(Logan Kilpatrick)主持 , 以下为对话内容实录:
思考型模型:从游戏AI到AGI的演进之路
基尔帕特里克: 今天我们的嘉宾是谷歌DeepMind首席执行官德米斯·哈萨比斯。 你好 德米斯,感谢你的到来,很高兴能 一起 聊聊我们在过去几个月里取得的大量发布成果和进展。
哈萨比斯: 你好, 很高兴来到这里。
基尔帕特里克: 我想先谈谈这种前所未有的进展势头。 我看到 DeepMind 近期 在不断推出各种成果 ,包括 Deep Think 、IMO金牌、Genie 3,还有其他大约五十个项目,在过去两个月内接连面世,快到让人忘记它们的存在,因为一切都在飞速推进。我想听听你对这种进展与势头的总体看法。
哈萨比斯: 是的,这种情形令人振奋。过去几年,我们一直在积蓄力量,加快发布和研发的节奏,如今正看到这些努力的结果。我认为这是行业一个非常令人兴奋的时刻。几乎每天都有新成果面世,我们团队几乎每天都在发布新东西,即便是在内部,也很难跟上进度,更不用说整个领域了。看到这一切我非常自豪,也对我们近期的一些成果感到非常满意。
基尔帕特里克: 那你是如何看待 Deep Think 的呢?我个人最兴奋的一点,是该模型的一个版本如今已向 Gemini 应用的订阅用户开放,让大家能够真正亲手体验。我觉得,这种一边推进技术研发、一边让用户直接上手的结合非常美妙。那么,从 Deep Think 的角度来看,你会如何思考?
哈萨比斯: 我认为,“思考型”模型的出现,可以看作是对我们早期游戏 AI 工作的一种回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以来,我们一直在研发“基于智能体的系统”。在早期,这意味着系统能够完成一个完整的任务,通常是将游戏玩到极致,因为游戏有明确的目标。当时我们的模型是单一领域的游戏模型,而如今我们拥有功能强大的多模态模型,既能处理语言,也能理解和整合其他信息。
在游戏AI中,我们需要在模型之上叠加“思考”或“规划”的能力。这是通往 AGI 的必经之路。当模型具备思考能力,就可以进一步延展到“深度思考”,甚至实现并行规划——也就是同时推演多条思路,然后择优决策,进入下一步行动。
这一方向仍有广阔的创新空间,但即便在“思考”这一部分,进展速度也非常快。无论是数学、编程、科学问题,还是游戏,这类系统都必须具备思考与规划能力,而不是简单地给出脑海中闪现的第一个答案。思考型系统的核心价值,就是不断修正和优化自身的推理过程。
基尔帕特里克: 我之前看了《The Thinking Game》那部视频,一边观看一边做笔记,发现 DeepMind 团队其实很早就踏上了这条道路,而且和你们当年用强化学习(RL)解决问题的过程有许多相似之处。比如,AlphaFold 曾面临的数据瓶颈,就和我们现在在编程等领域缺乏专家数据的困境十分相似。这种情况,会让你产生似曾相识的感觉吗?
哈萨比斯: 确实如此。我们很早就坚定选择了强化学习,这是 2010 年我们做出的首批关键决策之一,与深度学习并列。当时的 Atari 项目,是第一个能真正完成有趣任务的深度强化学习系统——它能够直接从屏幕像素中学习玩上世纪 70 年代的Atari游戏,而且表现超过任何人类玩家。更重要的是,它能“开箱即用”地玩任何 Atari 游戏,这种通用性证明了新技术具备规模化并发挥实际价值的潜力。
我个人从小下国际象棋时,就会思考如何优化自己的思维过程,这也促使我去研究神经科学,探索大脑的工作机制,并借助人工智能这一强大的工具,将智慧凝结为数字形态。当然,现有系统在某些方面的表现已经非常出色,但在一些相对简单的任务上仍有不足,比如高中数学、基础逻辑,或者某些经过特殊设计的小游戏。它们体现出一种“参差型智能”——在某些维度上表现惊人,但在另一些方面则很容易暴露弱点。
从机器人到通用助理
Genie 3 的多维度潜力
基尔帕特里克: 那你是如何看待 Deep Think 的呢?我个人最兴奋的一点,是该模型的一个版本如今已向 Gemini 应用的订阅用户开放,让大家能够真正亲手体验。我觉得,这种一边推进技术研发、一边让用户直接上手的结合非常美妙。那么,从 Deep Think 的角度来看,你会如何思考?
哈萨比斯: 我认为,“思考型”模型的出现,可以看作是对我们早期游戏 AI 工作的一种回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以来,我们一直在研发“基于智能体的系统”。在早期,这意味着系统能够完成一个完整的任务,通常是将游戏玩到极致,因为游戏有明确的目标。当时我们的模型是单一领域的游戏模型,而如今我们拥有功能强大的多模态模型,既能处理语言,也能理解和整合其他信息。
在游戏 AI 中,我们需要在模型之上叠加“思考”或“规划”的能力。这是通往 AGI 的必经之路。当模型具备思考能力,就可以进一步延展到“深度思考”,甚至实现并行规划——也就是同时推演多条思路,然后择优决策,进入下一步行动。
这一方向仍有广阔的创新空间,但即便在“思考”这一部分,进展速度也非常快。无论是数学、编程、科学问题,还是游戏,这类系统都必须具备思考与规划能力,而不是简单地给出脑海中闪现的第一个答案。思考型系统的核心价值,就是不断修正和优化自身的推理过程。
基尔帕特里克: 许多人看了Genie 3的演示后感到震撼,有人甚至夸张地说“这是模拟理论的证据”。它确实和用游戏推动强化学习发展有关。回顾Genie 3,你觉得结果和当初的预期一致吗?我觉得,提升模型玩游戏的能力,未必必然带来如今的世界模型。
哈萨比斯: Genie 3汇集了多条研究路径与想法。我们一直把棋类或电子游戏作为挑战环境,不仅用来推动算法进步,也用来合成数据。我们会构建极为逼真的虚拟环境,用来训练系统理解物理世界。
我们想要构建的世界模型,不仅要理解物理结构、材料特性、液体流动,还要理解生物和人类的行为,因为AGI必须理解物理世界,才能在其中运作。这对机器人至关重要,也对通用助理项目如Project Astra(Gemini Live)不可或缺。
验证世界模型的一种方法,就是让它生成与现实一致的虚拟世界,比如打开水龙头会有水流出,镜子里会映出自己等等 。Genie 3之所以惊人,就在于它生成的世界具有一致性。你转身离开,再回头,世界保持原样。这说明它的底层物理理解相当出色。
基尔帕特里克: 你认为用户将如何使用 Genie?我们的目标是仅将它作为改进Gemini和其他机器人项目的工具,还是你觉得它本身还有更多用途?
哈萨比斯: 它在多个维度上都令人兴奋。首先,我们已经在用它进行训练。例如,我们有一个名为SIMA(Simulated Agent,模拟智能体)的游戏智能体,可以开箱即用地操作并玩一款现有的电脑游戏。它有时表现不错,有时不够理想。
令人有趣的是,我们可以把SIMA放进Genie 3里,相当于一个AI在另一个AI的“脑海”中行动。SIMA会根据目标(比如找到房间里的钥匙)发出操作指令,而Genie 3则实时生成游戏世界。这样可以创造无限的训练数据,对机器人训练或AGI系统的通用训练都有价值。
同时,它在互动娱乐领域也有巨大潜力。我有很多想法去打造下一代游戏,甚至可能催生一种介于电影与游戏之间的新型娱乐形式。
最后,从科学家的角度看,最有趣的是这能告诉我们关于现实世界、物理规律,甚至模拟理论的什么信息。当你在深夜生成整片虚拟世界时,你会不自觉地思考:现实世界的本质是什么?这也是我整个职业生涯推动自己用AI服务科学的动力所在。我认为,像Veo 3和Genie 3这样的模型,若换个角度观察,能给我们关于现实本质的启示。
AI的能力鸿沟
强大生成力与低级错误并存
基尔帕特里克: 这正好能回 到 我们之前谈到的“参差型智能”问题。一方面,我们已经有了能生成完整虚拟世界的惊人系统;另一方面,让 Gemini下国际象棋,我可能都能赢它,而且有时它甚至会违反规则。我们最近宣布了 DeepMind 与 Kaggle 合作推出“游戏竞技场”,让模型在各种游戏中对战并接受测试。你怎么看?
哈萨比斯: 这反映了一个更普遍的问题——如今的系统(无论是 Gemini 还是竞争对手的模型)在很多方面都很强大:它们能从文本生成模拟世界,能理解视频,能解数学题、做科研。然而,用过这些聊天机器人的人都知道,它们的能力边界很容易被触碰到。
在我看来, 这种缺乏一致性,正是它们距离 实现 完全AGI还差的一步 。一个普通人不应该如此轻易就能发现系统的低级缺陷。我们或许已经解决了过去那种“数 strawberry 里的R”这种用于评估模型细节关注度的低级问题,但依然存在一些小学生都能轻松完成、而模型却失败的任务。这很可能是因为在推理、规划、记忆等方面,仍然缺少关键性的创新。
此外,我们现有的评测基准中,很多已经接近饱和。比如在 AIME 数学测试上,Deep Think 最近的成绩已经达到 99.2%,几乎没有提升空间,这甚至可能意味着测试本身已经失去区分力。因此,我们需要设计更新、更难、覆盖面更广的评测,用来考察模型的物理直觉、世界理解,以及安全性(比如防止欺骗行为)。
我对“游戏竞技场”非常期待,因为它延续了我们最初做游戏 AI 的初衷。游戏是干净的测试环境,有客观分数,没有人为主观打分;它们会随着系统能力的提升自动增加难度,还可以不断引入更复杂的游戏。未来甚至能让 AI 自创新游戏、彼此对战学习,从而避免数据泄露或过拟合。这种多智能体环境将成为长期有效的重要评测基准之一。
能力内化 VS 外部调用:经验驱动的决策
基尔帕特里克: 我过去两年的感悟是,生活中的许多问题,本质上都是一种评测。工作表现是一种评测,你看待事物的方式也是评测。在游戏领域,我们有明确的约束条件和客观的结果,但一旦扩展到非游戏领域,“真值”就很难定义。比如,在人类日常任务中,如何构建强化学习环境?你觉得在非游戏环境中,我们该怎么捕捉这些特征?
哈萨比斯: 如何定义奖励函数或目标函数,一直是强化学习在真实且混乱的环境中面临的最大挑战。现实世界中,并不存在单一的目标函数,而是多个目标并存,而且这些目标的权重会随着情绪、环境、职业阶段等因素不断变化。
我认为,未来的通用系统必须学会理解用户的真实意图,并将其转化为一组可优化的奖励函数。这涉及元认知或“元强化学习”(meta-RL)的研究——在主要系统之上再建立一个系统,用来推测主要系统的最优目标函数。这类研究在十年前的 AlphaGo、AlphaZero 游戏阶段我们就已经开始尝试,如今很可能会再次成为研究重点。
基尔帕特里克: 我觉得我们应该现在就着手,因为感觉 DeepMind 十年前做的事,正好就是今天大家追赶的前沿。回到“思考趋势”和“游戏趋势”,我们历史上经历了多种模型扩展路径——预训练、后训练、数据扩展、算力扩展,后来又有了推理扩展,比如 Deep Think 就得益于推理能力的提升。现在似乎“工具”成了新的扩展维度。你觉得,给模型配备物理模拟器作为工具,会是未来的方向之一吗?
哈萨比斯: 工具使用是 AI 系统最重要的能力之一。思考型系统的核心在于,它能在思考过程中主动调用工具,比如搜索引擎、数学程序、编程环境,然后基于工具提供的结果调整规划。
有趣的是,哪些能力应当放进主模型(即“主脑”),哪些应当作为外部工具,这在数字系统中并不像在人类身上那么清晰。对于人类来说,不属于身体的就是工具;但在 AI 中,这条界限很模糊。
比如,下棋能力是直接内置在主模型中,还是调用 Stockfish 或 AlphaZero 作为外部工具?经验表明,如果某项能力(如数学、编程)能提升整体推理水平,就应该放入主模型;但如果它可能削弱模型的其他通用能力,则更适合作为外部工具。这完全是一个经验性问题,需要在实践中不断试验和验证。
AGI的综合能力蓝图
语言、多媒体与物理推理一体化
基尔帕特里克: 很多开发者现在都会问,模型已经不再是过去那种静态的权重,而是在推理过程中能调用各种工具,功能越来越像一个完整的系统。这正在改变人们构建应用的方式。你怎么看这种从“模型”到“系统”的转变?对开发者有什么建议?
哈萨比斯: 模型的进化速度非常快,尤其是当工具能力与规划、思考能力结合后,其潜力可能呈指数级扩张,因为它们可以用全新的方式组合使用工具。
我建议开发者多思考:哪些工具对 AI 的能力最有价值?然后着手构建这些工具。即便有了工具调用和智能体能力,这些系统本身还不是成品,它们依然需要大量的产品化工作。产品经理和设计师面临的挑战,是必须预判一年后的技术状态,并为那个未来去设计产品,同时允许底层引擎在 3 到 6 个月,甚至更短的周期内进行一次重大更新。
基尔帕特里克: 现在感觉几乎是每两周就有一次更新。
哈萨比斯 : 确实是这种节奏,而且短期内不会改变。未来整个网络生态和应用的运作方式,都将因为智能体系统能够灵活使用工具而发生深刻变化。
基尔帕特里克 : Genie 3 的进展令人震撼,很多人都迫不及待想亲手体验。我希望能尽快让更多用户用上它。从世界模型和 Genie 的角度看,下一步是什么?
哈萨比斯 : 我们正在努力提升 Genie 的运行效率,好让更多用户尽快体验。目前它还处于有限预览阶段。我们也在思考最佳的发布方式,希望用户能够分享自己创作的世界,互相体验、,从而形成一个活跃的社区。
但有一个关键问题是,如何保持世界生成的一致性——当某个提示生成了一个极具吸引力的世界,我们怎样确保后来者也能复现它?这是我们正在攻关的技术挑战之一。
更长远来看,Genie、Veo、Gemini 这些目前相对独立的模型,正逐渐走向融合,形成我们所谓的“全能模型”(Omni Model)。它既能处理语言、多媒体,又能进行物理推理和内容生成,这才是 AGI 应该具备的综合能力。
来源:智慧芯片一点号