摘要:5月25日,DeepMind CTO Koray Kavukcuoglu接受海外播客Big Technology访谈,对话中谈到了Google DeepMind 构建AGI的愿景与关键研究方向,深入探讨了了模型规模化(Scaling)与其他关键因素(如算法、架
5月25日,DeepMind CTO Koray Kavukcuoglu接受海外播客Big Technology访谈,对话中谈到了Google DeepMind 构建AGI的愿景与关键研究方向,深入探讨了了模型规模化(Scaling)与其他关键因素(如算法、架构、数据及推理技术)在推动AI进步中的相对重要性。此外,还谈到了通往AGI之路所面临的挑战与必要创新,以及DeepThink等新推理技术的探索。此外双方还就模型能力提升带来的实际应用价值、Veo等多模态AI的显著进展、开源与专有模型的生态平衡进行了深入讨论。
DeepMind CTO Koray Kavukcuoglu表示,尽管Scaling可能存在收益递减,但AI领域已能非常有效地提升模型能力,且仍在不断进步。重要的是在数据、算力、参数数量等多个维度综合研究和投入,而非仅依赖单一维度的Scaling。
他还介绍了Google I/O大会上宣布的DeepThink,他指出,DeepThink并非独立产品,而是为Gemini 2.5 Pro模型启用的一种模式,使其能在推理时投入更多时间进行思考,并构建并行的、多个思路链的假设进行推理,而非单一思路链。这仍处于早期研究阶段,旨在探索模型能力和性能的新突破。
01 Google DeepMind的愿景
主持人提问:Google DeepMind 目前正在攻克哪些最重大的难题,以及其研究业务的核心是什么?
Koray Kavukcuoglu 实录:当您审视整个 Google DeepMind 时,首先且最重要的是,我们有一个统一的愿景,那就是我们要构建 AGI。这是我们的目标。
但是,当我们思考构建 AGI 时,需要考虑两个方面。其一,是进行所有那些目标明确、旨在构建 AGI 的研究。但与此同时,我们也同样雄心勃勃、充满热情地进行大量研究,以展示和探索 AI,即便以其目前的形式,如何能够被用来影响世界。
所以,我们主要关注这两类事务。例如 Gemini 模型、Veo 模型,所有这些类型的生成式 AI 模型以及其中发生的激动人心的事情。这些构成了我们正在进行的 AGI 研究主线。
我们还有,正如许多人可能知道的,像 AlphaFold 这样的项目,我们在数学、化学等所有这些领域的工作,我们真正在探索 AI 如何能够被用来开创全新科学研究的边界。此外,我们还有更多普适性的、探索性的计算机科学相关研究正在进行中。所以这是一个相当广阔的研究范围。
02 Scaling与算法、架构、数据同等重要
主持人提问:在推动模型发展方面,Scaling是决定性因素还是辅助因素?考虑到曾被认为具有无限潜力的规模化技术可能并非如此,例如GPT-5、Llama及Claude Opus的进展似乎遇到瓶颈,这是否意味着生成式AI领域令人失望?此外,从行业整体,特别是对比GPT系列模型的迭代来看,当前模型改进的速度是否有所放缓?
Koray Kavukcuoglu 实录:这是一个很好的问题,您阐述它的方式也很好。因为它绝对是一个重要的因素,毫无疑问。我倾向于这样思考:在任何研究问题中,你很少能找到一个维度,可以让你相当有信心地预期能带来改进。当然,可能会有收益递减的情况,但大多数研究都是如此。
因此,当我们思考当前的研究,特别是在生成式 AI 模型方面,Scaling 无疑是其中一个重要因素,但它与其他因素同等重要。当我们考虑我们的架构时,例如构成模型的架构元素、我们置入其中的算法,它们与 Scaling 同等重要。
我们当然会分析和理解,随着 Scaling 的进行,这些不同的架构和算法如何变得越来越有效。这是非常重要的一部分,因为你知道你正在投入更多的计算能力,你需要确保你所研究的架构和算法能够在这样的 Scaling 特性下获得最佳的回报。但正如我所说,这并非唯一的因素。
数据非常重要。我认为它和其他任何因素一样关键。我们放入系统中的算法、架构、模块都很重要。理解它们在更多数据、更多算力条件下的特性,也同样重要。
当然,推理时技术也同样至关重要。因为一旦你有了一个特定的架构、一个特定的模型,你就可以通过确保在推理时借助不同技术反复利用该模型,从而数倍提升其推理能力。
关于Scaling的潜力,我其实并不这么认为并非如此,因为我们已经能够非常有效地提升模型的能力。我认为,在某种程度上,所有关于 Scaling 的讨论都源于 Scaling Law。Scaling Law 解释了模型在数据、算力和参数数量这几个方面的性能表现。而且,综合研究这三者至关重要。当我审视我们从这种通用技术中所取得的进展时,我认为它仍在不断进步。
我认为重要的是要确保在各个层面都有广泛的研究正在进行。而且,与其只从单一维度思考 Scaling,实际上有很多不同的思考角度,并且应该在这些角度上进行投入。我们可以看到回报,我认为在整个领域都是如此,不仅仅是在 Google,而是在整个领域,许多不同的模型都在以相当显著的幅度进步。所以我认为,作为一个领域,我们取得的进展是相当辉煌的。这非常令人兴奋。
在 Google,我们对于 Gemini 模型所取得的进展感到非常兴奋。从 1.5 版本到 2.0 再到 2.5 版本,我认为我们在模型能力方面取得了非常稳健的进展和提升,无论是在我们所拥有的能力广度上,还是在每项能力的质量水平上。
因此,令我感到兴奋的是,我们一直在不断拓展前沿,并且在许多研究方向和不同维度的研究中都看到了回报。我很高兴的是,我认为我们还有更多的进展空间,而且为了实现 AGI,也还需要取得更多的进展。
关于模型迭代速度,当我审视我们的模型系列,从 Gemini 1 到 1.5,再到 2,如今到 2.5,我对我们目前的发展速度感到非常兴奋。我们持续增加新的功能。例如,我们从一开始就将 Gemini 模型设计为多模态的。这是我们的目标,因为我们致力于构建 AGI,希望确保我们的模型能够具备我们对通用智能所期望的那些能力。
因此,多模态从一开始就是关键。随着版本的迭代,我们一直在不断增强这种自然的多模态特性。观察我们在推理能力方面的进步速度,例如我们最近增加了思考能力,我认为通过 2.5 Pro,我们期望在推理能力和编码能力方面实现巨大飞跃。
我认为关键之一在于,我们将所有这些能力都整合到单一的模型系列中,这本身就是实现快速改进的催化剂之一。这样做更具挑战性,但我们发现,创建一个能够理解世界的单一模型,然后你可以问它:“你能帮我编写一个模拟树木生长的代码吗?”然后它就能做到。这需要对很多事物有深入的理解,而不仅仅是编码知识。因为我们正努力使这些模型变得实用,能被更广泛的用户群体所使用。
而且,我认为我们目前的发展步伐真实地反映了我们在研发方面所做的全面投入。我对我们伴随 Gemini 发展所做的一切感到非常兴奋,相关的研究也愈发激动人心。当然,对于我们这些从事研究的人员来说,这确实是非常好的局面。
03
DeepThink作为一种新的推理模式是实现AGI的重要探索
主持人提问:您在开场时提到目标是AGI,并强调在实现AGI前还有许多工作要做。Yann LeCun曾表示AI行业不可能仅通过扩大大型语言模型规模来达到人类水平智能,您是否同意此观点?另外,Google I/O大会宣布了DeepThink,它依赖于推理或所谓的“测试时计算”,这种在模型中加入推理的方法对推动模型发展有多大效果?能否详细介绍DeepThink及其与传统推理模型的不同之处?
Koray Kavukcuoglu 实录:我认为那是一个假设,它可能被证实,也可能不会。而且,我也不认为有任何研究实验室仅仅在尝试扩大大语言模型的规模。所以,我不确定是否真的有人在试图反驳那个假设。
我们并非如此。从我的角度来看,我们正在对极为广泛的研究领域进行投入,我认为这才是必要的。而且很明显,我交谈过的许多研究人员以及我自己都认为,还有更多关键的要素有待发明。所以,在我们通往 AGI 的道路上,有一些我们必须攻克的关键创新。这就是为什么我们仍然将此视为一个极具挑战性的研究课题。
而且我认为保持这种批判性思维至关重要。对于任何研究问题,你总是会尝试审视多种不同的假设,探索多种不同的解决方案。这样一个雄心勃勃的研究问题,可能是我们一生中正在从事的最重要的问题。它可能是我们工作中面临的最困难的研究问题。我认为,拥有这样一个真正雄心勃勃的研究议程和投资组合,并在许多不同方向上进行投入,这才是最重要的。从我的角度来看,重要的是明确目标所在。我们的目标是 AGI,而不是以某种特定方式构建 AGI。重要的是以正确的方式构建 AGI,一种能够产生积极影响、能够在其基础上为世界带来巨大利益的方式。这才是我们研究 AGI、试图构建 AGI 的原因。AGI 本身,有时可能给人的印象是它自身即是目标。但目标本身在于这样一个事实:如果我们实现了 AGI,那么我们就能极大地造福整个社会乃至全世界。这才是真正的目标。
所以,带着这份责任,你所投入的并不仅仅是某个特定的方面,那个特定的假设是否成立对我而言并非至关重要。重要的是,我们要通过开展一项极具雄心的研究,遵循一个极具雄心的研究议程,并建立起对智能这一领域极为深刻的理解,从而最终达成目标。
关于DeepThink,首先,DeepThink 本身不一定是一款独立的产品。它更像是一种我们为 2.5 Pro 模型启用的模式,使其能够在推理时间投入更多时间进行思考和构建假设。关键在于,它能够构建并行的假设,而非单一的思路链;它可以建立多个并行的思路链,并基于这些思路链进行推理,形成一个假设,再基于这些假设建立理解,然后继续构建这些并行的思路链。在目前的设置中,它确实需要更长的时间。因为理解并构建那些并行的思考本身就是一个更为漫长的过程。但我们同样将其定位为尚处于研究阶段。我们正在分享一些初步的研究成果,并对此感到兴奋。我们为这项技术及其潜力感到兴奋,它实际上能够在新的能力和性能水平上实现突破。但这仍处于早期,因此我们目前仅小范围分享。我们将开始与安全研究人员和一些受信任的测试人员分享,因为我们希望了解人们想用它解决哪些问题,它带来了哪些新能力,以及我们应如何以期望的方式去训练它。所以,这方面确实还处于早期,但我认为这是我们在推理时间思考模型领域发现的一个令人振奋的研究方向。
至于与传统推理模型的不同,目前的推理思考模型,至少从我们的研究角度来看,大多数时候是构建一个单一的思路链。当模型构建单一思路链并持续关注该思路链时,它能更好地理解希望给出的回应,可以在不同假设间切换,并反思之前的行为。
现在,如果从视觉化的角度思考,可以引入的一种扩展性是:能否拥有多个并行的思路链?这样就可以并行分析不同的假设,从而有更大容量去探索不同类型的假设。然后可以观察、比较这些假设,排除一些,或者继续深究并扩展特定的假设。这在某种程度上是一个非常直观的过程,但无疑也更为复杂。
04 模型改进的实际影响与多模态进展
主持人提问:将这些AI模型改进10%或50%会分别带来什么实际影响?产品团队是否会根据模型性能的提升来规划新的产品功能?以视频生成模型Veo 3为例,它实现了场景与声音的同步生成,并配合Flow工具进行故事板创作,这是否是模型能力进步从而变得更实用的完美例证?
Koray Kavukcuoglu 实录:我认为问题在于,我们如何定义这 10%?价值的定义本身就在这里。进行研究和改进模型的一个重要方面是量化进展。我们采用多种不同方法来量化进展,并非每种方法都是线性的,也并非每种线性方法都具有相同的斜率。
因此,当我们说改进 10% 时,如果指的是在数学理解能力上提升 10%,即对高度复杂推理问题的理解能力提升 10%,我认为这将是巨大的进步。因为这实际上意味着模型的一般知识和能力得到了极大扩展。并且可以预期,这将使模型能够更广泛地应用于更多类型的问题。
关于50%的改进,我们与产品团队有很多合作。退一步说,这对我而言至关重要。将 AGI 视为目标,我认为这也需要通过与产品团队的合作来实现。因为重要的是,虽然构建 AGI 是一个研究问题,我们也在进行研究,但最关键的是要从用户那里了解需要解决什么样的问题,以及这些模型应该在哪些领域发展。因此,用户反馈以及通过与用户互动获得的知识是极其关键的。
所以,当我们的产品团队告诉我们某个领域需要改进时,这对我们来说是非常重要的反馈,我们可以将其转化为衡量指标并努力实现。正如您所问,如果我们全面提升模型的能力——我认为重要的是在一系列广泛的指标上实现提升,正如我们从 Gemini 1.5、2 到 2.5 所看到的那样——您可以看到模型能力的全面增强。这样,就会有更多的人能够在日常生活中使用这些模型,无论是学习新知识,还是帮助他们解决遇到的问题。
但这就是目标。归根结底,我们开发这项技术就是为了创造有用的东西。而产品是衡量和理解何为有用、何为无用的一个关键途径。随着我们在这方面不断深入,我认为这就是我们的主要追求。这非常好。
关于Veo,从 Veo 1 到 Veo 2,再到 Veo 3,其主要进展更多在于理解世界的物理规律和动态。对于 Veo 2,我认为我们首次可以很有把握地说,在绝大多数情况下,该模型已经很好地掌握了世界的动态。这一点至关重要。也就是说,能够拥有一个模型,它可以生成各种场景,包括动态环境下的复杂场景,以及物体间的互动。
我记得一个曾广为流传的例子是切割番茄的视频。Veo 2 生成的视频非常精确,看起来非常逼真,就像真有人在切番茄一样。其中的动态效果,不仅仅是手的移动等单个物体的动态,还包括不同物体间的互动——刀片、番茄、切下的番茄片如何掉落等等,都表现得非常精准。所以,这种互动元素非常重要。理解动态不仅意味着理解单个特定物体的动态,还包括多个物体间的相互作用,这要复杂得多。
所以我认为我们在这方面实现了一次巨大的飞跃。对于 Veo 3,我认为我们正在这方面迈出又一大步。但我将声音视为一个独立的维度,一项新增的功能。当然,在现实世界中,我们拥有多种感官,视觉和听觉是相辅相成的。它们完美关联,我们同时感知它们,并且它们互相补充。因此,一个模型如果能理解这种互动性和互补性,并能生成同时包含视觉和声音的场景与视频,我认为这正体现了模型能力的新高度。
至于质量,我认为目前这只是第一步。有些例子确实非常出色,但也有些例子尚未达到我们所说的“非常自然”的程度。但我认为,在扩展这种能力方面,这是激动人心的一步。正如您所说,我很高兴看到这类技术如何能够变得实用。您刚才提到“它正在变得实用”,这真是个好消息。这意味着这已经是一项可以实际应用的技术。我认为 Flow 项目就是朝这个方向进行的一次实验,旨在将这项技术交到用户手中,供大家试验和创造。
05 开源与专有模型服务于不同用户
主持人提问:在开源与专有模型之间是否存在根本性的张力?例如Google贡献了Transformer这样的基础技术,现在又在构建专有模型,而DeepSeek等开源模型也在推动领域发展。这两者之间是否存在协调的可能,或者它们将各自争取市场份额?另外,您对“vibe coding”(基于直觉或氛围的编程)这种新兴方式有何看法?
Koray Kavukcuoglu 实录:首先,我们退一步看,这项技术的建成,背后是大量的研究投入。当然,在过去的两三年里,它变得如此易于获取和普及,以至于人们在日常生活中都在使用它。但是,发展到今天这一步,其背后有着漫长的研究历史。所以,作为研究实验室,Google 以及更早的 DeepMind 和 Google Brain (这两个独立的实验室在不同方面协同工作) ,我们今天看到的许多技术最初都是作为研究原型或研究理念构建的,并且已经通过论文发表,正如您提到的 Transformer,它是支撑当前各项技术的最关键技术。此外,还有像 AlphaGo、AlphaFold 这样的模型,所有这些研究思想不断演进,共同构建了我们目前拥有的知识体系。
因此,所有这些研究,无论是发表论文还是将成果开源,都曾是至关重要的环节,因为在那些时候,我们确实处于探索阶段。
如今,我们需要记住的另一点是,在 Google,我们实际上有自己的 Gemma 模型,这些是开放权重模型,就像 Llama 的开放权重模型一样。我们之所以这样做,也是因为存在一个不同的开发者和用户社群,他们希望与这类模型互动,他们确实需要能够将这些权重下载到自己的环境中去使用和构建应用。
所以,我觉得这并非一个非此即彼的问题。不同类型的用例和社群实际上能从不同类型的模型中受益。但最重要的是,在通往 AGI 的道路上,我们必须清醒地认识到我们所开发的技术能带来什么。因此,当我们开发前沿技术时,我们选择在 Gemini 的框架下进行,这些并非开放权重模型,因为我们希望确保能以负责任的方式规范其使用。
但归根结底,真正重要的是投入到技术构建中的研究本身,是进行这项研究、推动技术前沿,并以正确的方式使其产生积极影响。这在开放权重生态系统和封闭系统中都可以实现。但是,当我思考我们正在努力实现的宏大目标——以正确且具有积极影响的方式构建 AGI 时,这就是我们开发 Gemini 模型的方式。
关于vibe coding,我觉得这非常令人兴奋。它所实现的是,突然之间,许多不一定具备编程背景的人也能够构建应用程序了。一个全新的世界正在开启。比如,你完全可以说:“我想要一个这样的应用程序”,然后你就能看到它被实现出来。你可以想象在学习领域,这能带来多少可能性。你想学习某个东西,你可以拥有文本形式的资料,但你也可以要求模型为你构建一个应用程序来解释某些概念,它就能做到。
而这仅仅是个开始。有些方面它做得很好,有些方面则不尽如人意,但我发现这非常令人兴奋。这正是技术带来的变革:突然之间,整个应用程序构建领域,整个动态、交互式应用程序的构建领域,都向更广泛的社群和人群敞开了大门。
关于本期对话
访谈发布时间:2025年5月25日
原视频地址:https://youtu.be/dIPdY541vus?si=2UytWUw9xQoCXcve
AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
√ 与AI上下游企业深度对话
√ 获取一手全球AI与算力产业信息
√ 获取AI热点及前沿产业独家信息
√ 随时了解全球AI领域高管最新观点及实录全文
√ 有机会参与AI主题产业交流活动
不止有 DeepSeek,更有 AI产业的未来!
| 文章
来源:人工智能学家