摘要:Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的
最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天候运行、具备“初级工程师”能力的 AI 系统。
Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几乎见证并亲历了谷歌每一个关键的 AI 发展节点。
作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此前包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。正如有网友所说:相比那个总在“兜售”某种概念的 Sam Altman,Jeff Dean 更像是一位脚踏实地的计算机科学家——他说出的每一句话都更显严谨与深度,值得我们认真倾听和思考。
尽管这场变革对程序员就业市场的实际冲击尚未显现,但种种迹象表明,未来几年内,软件开发这项职业可能将经历一次深刻重塑。AI 工程师不只是“能写代码”,更具备了人类工程师难以比拟的持续性与规模化潜力,而这,也许只是开始。
为了帮助大家更好理解 Jeff Dean 的判断和观点,我们也翻译了他这次的访谈内容,以下是原文(仅调整了部分问题顺序,以方便阅读):
AI 的演进与行业格局Bill Coughran:作为 Alphabet 的首席科学家,咱们跟 Jeff 的对话可以从这个开始:在座很多朋友显然都对 AI 抱有兴趣,一直在关注其发展。谷歌贡献了大量行业赖以存在的底层基础,特别是 Transformer 架构。那你如何看待当前谷歌内部乃至整个 AI 行业的发展方向?
Jeff Dean: 我觉得 AI 领域已经酝酿了很久,只是过去这三、四年才真正进入公众视野。实际从 2012 年、2013 年那会开始,人们已经在使用这些当时看来规模庞大的神经网络来解决各种有趣的问题。同样的算法同样适用于视觉、语音和语言类任务。这是个非常了不起的成就,也让机器学习逐渐替代传统手工设计方法,成为解决此类问题的主要方式。
而且早在 2012 年,我们就已经在关注一个问题:如何扩展并训练出极其庞大的神经网络?我们训练了一个比当时其他模型大 60 倍的神经网络,用了 1.6 万个 CPU 核心,因为当时谷歌的数据中心只有这种硬件。我们得到了非常好的结果。这让我们确信,扩展这种方法确实有效。之后越来越多的证据出现,同时硬件的改进也帮助我们提升了扩展能力,得以训练出更大的模型并处理更大的数据集。
我们曾有一句口号:“模型越大、数据越多、结果越好”。在过去这 12 到 15 年里,这句话基本成立。至于未来的发展方向,我认为现在的模型已经能完成一些非常有趣的任务。当然它们不能解决所有问题,但每年都能解决越来越多的问题,因为模型本身也在不断进步。我们有了更好的算法改进方法,让我们可以在相同的计算成本下训练出更大的模型,获得更强大的能力。此外,我们在硬件上也有突破,单位硬件上的计算能力不断提升。我们还有强化学习和后训练技术,让模型变得更好,并引导它们按照我们期望的方式进行发挥。这一切都非常令人兴奋。我认为多模态也是一个重要的趋势,比如输入格式可以是音频、视频、图像、文本或代码,输出也可以涵盖这些形式。总之 AI 变得越来越有用了。
Bill Coughran:目前整个行业都对“智能体”非常着迷。你觉得这些智能体真有用吗?谷歌前段时间刚发布了一款智能体框架。不是针对谷歌哈,但我总感觉现在对智能体的炒作有点纸上谈兵。不好意思,我这人说话可能有点直……
Jeff Dean: 没关系。我认为智能体这个领域确实有巨大的潜力,因为我们看到通过合适的训练过程,智能体最终可以在虚拟计算机环境中完成许多今天需要人类才能解决的任务。当然,目前它们只能完成部分任务,还有很多无法胜任。
但提升其能力的路径是相对清晰的:你可以进行更多强化学习,让智能体从经验中学习。其实很多早期产品都无法完成大部分任务,但仍然对用户非常有用。我认为类似的进展也会发生在物理机器人智能体领域。
如今,我们可能正接近这样的转折点:对于我们这个会议室这样杂乱的环境,机器人还无法很好地适应,但我们能看到一条明确的路径,即在未来几年内,它们应该能在这样的房间里完成几十种实际工作。刚开始能完成这些任务的机器人产品肯定价格不菲。但随后通过经验学习,它们的成本会被优化,变成原来价格的十分之一,同时还能完成上千种任务。这将进一步推动成本优化和技术能力的提升。所以智能体的发展总体来讲非常激动人心。
Bill Coughran:这话没毛病,只不过现在还不能苛求太多。还有一个问题经常被提及,那就是大模型的发展现状。显然,谷歌掌握着 Gemini 2.5 Pro 还有 Deep Research 项目,OpenAI 以及其他公司也参与其中。关于开源和闭源的大语言模型数量和发展方向,业界中的讨论之声从未停止。你是怎么看的?谷歌在这一领域当然拥有强大的地位,也希望继续占据主导,但你如何看待整体格局的变化?
Jeff Dean: 我认为,构建最先进的模型需要大量投资。因此,市面上的这类模型不可能几十上百,最终留下的可能只有少数几个。一旦你拥有了这些强大模型,就可以利用诸如知识蒸馏之类的技术生成更轻量级的模型,用以适配更多场景。
我曾经是这项技术的合著者,但 2014 年 NeurIPS 拒绝了我们的论文,认为它不太可能产生影响。
我听说 DeepSeek 可能就受益于这项技术。总之这是一种非常实用的技术:当有了一个更强的模型时,你可以将其压缩成一个更小巧的模型,使其轻便、快速,且具备你想要的各种特性。因此,我认为这个领域会有许多不同的参与者,因为不同大小和用途的模型都有生存的空间。但我也相信,少数几个通用且功能强大的模型同样会表现出色。
AI 的编程能力Bill Coughran:还有个小问题。你会用“氛围编程”吗?
Jeff Dean: 我还真稍微尝试过,而且效果出奇地好。
我们在工作中有不少演示聊天室,甚至整个 Gemini 项目的沟通几乎就是在聊天室里面完成的。我加入了大约 200 个聊天室,每天早上起床刷牙时,都会收到大概 9 条通知,因为我的伦敦同事们已经开始忙活了。
我们有一段特别酷的演示:你可以上传一段教育类 YouTube 视频,然后提示词是“请根据这段视频制作一个包含图形和互动元素的教育游戏”。虽然并不总能成功,但有大约 30% 的几率,它确实能生成一些有趣的内容,比如关于微分方程、前往火星探险,或者细胞相关主题的游戏。这对于教育来说是一个巨大的信号。
我们现在拥有的工具,以及未来几年将拥有的工具,确实有机会以积极的方式改变世界。我们应该记住,这才是我们努力的方向。
观众:我很好奇你对未来搜索的看法,特别是考虑到 Chrome 的普及度如此之高。Chrome 已经掌握了支付凭证和网页签名凭证等信息。你有没有考虑过将 Gemini 直接集成到 Chrome 当中,让 Chrome 应用转化为 Gemini 应用,而不再作为单独的应用程序?我说这话,是因为我是咱们谷歌的正式员工,所以请你认真考虑再作答。
Jeff Dean: 是的,我认为核心的 Gemini 模型或其他模型可以衍生出许多有趣的下游应用。其中之一,就是让它通过观察你在浏览器或桌面电脑上的操作,帮助你完成任务,比如对标签页进行 OCR 或访问原始标签内容。
这似乎会非常有用。我们在这个领域已经有一些初步成果,并发布了视频形式的公共演示,比如 AI 助手 Mariner 等项目。具体结果尚待观察。
观众:你之前提到过,基础模型的参与者可能只会剩下少数几家,这主要是由于基础设施成本和维持前沿技术所需的投资规模过大。随着这场前沿竞争的展开,你认为事态最终会走向哪里?单纯是谁砸最多的钱、造出最大的集群就能胜出吗?还是说要更好地利用统一内存优化和现有资源,才是取胜之道?或者说最终取决于用户体验?这场军备竞赛会走向何方?是不是谁先达到天网的水平,谁就赢了?
Jeff Dean: 我认为决定胜者的,既是出色的算法工作,也离不开优秀的系统硬件和基础设施成果。不能简单认为其中一个比另一个更重要,因为在我们 Gemini 模型的代际演进过程中,我们看到算法改进的重要性与硬件改进或投入更多计算资源的重要性相当,甚至可能更高。
但从产品角度来看,这个领域目前仍处于早期阶段。我认为我们尚未找到那个能让数十亿人每天使用的杀手级产品。它可能是教育领域的某个应用,也可能是类似搜索引擎的信息检索工具,但会充分利用大型多模态模型的优势。我认为帮助人们在各自的工作环境中完成任务才是最重要的。那么,这些想法将如何转化为具体的产品形态?比如,我该如何管理一支由 50 个虚拟智能体组成的团队?它们大多数时候都会正确执行任务,但偶尔也需要咨询我的意见。我需要给予它们一定的指导。这相当于思考,我该如何管理 50 个虚拟实习生?这将是一个复杂的问题。
观众:我觉得您可能是世界上最适合回答这个问题的人选了:您认为我们离拥有一个能 24/7 全天候工作,而且水平相当于初级工程师的 AI 还有多远?
Jeff Dean: 我觉得比大家想象中要近。
Bill Coughran:具体点呢?六周,还是说六年?
Jeff Dean: 我估计那在接下来一年左右的时间里可能是可行的。(I will claim that's probably possible in the next yearish)。
观众:还是刚才“一年内拥有初级工程师水平 AI”的。我想知道,要想实现这个目标,我们需要完成哪些突破?显然,代码生成能力会进一步提升,但除此之外你认为还需要什么?是工具使用能力?还是智能体规划能力?
Jeff Dean: 我认为这样一位虚拟工程师需要具备的能力远不止在 IDE 中编写代码。它还需要知道如何运行测试、调试性能问题等等。我们知道人类工程师是如何做到这些的,他们得学会使用各种工具来完成任务,并从更有经验的工程师那里获取智慧,或者阅读大量文档。我认为虚拟初级工程师最擅长的应该是阅读文档和在虚拟环境中不断试错。这似乎是提高其能力的一种方式。至于到底能做到什么程度,我不知道,但我相信这会是一条很有前景的道路。
硬件在 AI 中的重要作用Bill Coughran:说的有道理。另一个引人注目的趋势是硬件的发展。在我看来,各家大厂都在自研硬件。谷歌很早就公开了自己的 TPU 计划,亚马逊也有自己的方案。传言 Meta 和 OpenAI 都在开发自己的芯片。可如今行业中似乎仍只听得到英伟达的声音,不过在你们谷歌的办公室里肯定不是这种情况。你怎么看这个问题?专用硬件对于这些任务到底有多重要?
Jeff Dean: 显然,专注于机器学习这类计算的硬件非常重要。我喜欢称之为“降低精度线性代数加速器”。每一代硬件都要变得更强大,并且通过超高速网络大规模连接在一起,以便将模型的计算需求分布在尽可能多的计算设备上。这一点至关重要。我记得我在 2013 年协助启动了 TPU 项目,因为那时我们明显需要大量的推理计算资源——那是第一代。第二代 TPU(TPUv2)则兼顾了推理和训练,因为我们看到了这方面的需求。我们现在使用的版本已经不再编号了,因为太麻烦。目前我们正在推出 Ironwood,打算给上代版本 Trillium 接棒。
Bill Coughran:这名字起得像英特尔那边的芯片,他们好像搞得都不太好……抱歉可能有点跑题,接下来咱们聊点别的。我有很多物理学家朋友,他们对 Geoffrey Hinton 和他的同事获得物理学诺贝尔奖感到有些惊讶。这事你怎么看?我认识的一些物理学家甚至觉得非物理学家赢得诺贝尔奖让他们有些不满。你认为 AI 最终会在各个领域走多远?
Jeff Dean: 我认为会非常远。今年我的同事 Demis 和 John Jumper 也获得了诺贝尔奖。我认为这表明 AI 正在影响诸多科学领域。因为从根本上讲,能否从有趣的数据中学习是很多科学领域的重要议题,即发现事物之间的联系并理解它们。如果 AI 能够辅助实现这一点,那就太好了。毕竟在许多科学领域,我们常常会遇到极其昂贵的计算模拟场景,例如天气预报、流体动力学或量子化学模拟。
现在的做法是使用这些模拟场景作为训练数据,训练出一个神经网络来近似模拟器的功能,但速度可以提升 30 万倍。这彻底改变了我们搞科学研究的方式。突然之间,我可以用一顿饭的工夫就筛选出上千万个分子;相比之下,以前我必须用恐怖的计算资源整整运行一年才能完成。这从根本上改变了我们的科研流程,并将加快科学发现的速度。
Bill Coughran:我想先快速跟进一下 Geoffrey Hinton 的情况。他因研究数字和模拟计算在推理和学习中的差异而离开谷歌。我想知道,未来的推理硬件是否会走向模拟方向?
Jeff Dean: 当然有可能。模拟计算在功耗效率方面具有优势。我也认为数字计算在推理方面仍有很大的专业化空间。一般来说,数字系统更容易操作。但我认为总体方向是:如何让推理硬件的效率比今天的水平再高一万、两万甚至五万倍?只要我们下定决心去做,这是完全可能的。实际上,我自己也在花时间研究这件事。
观众:您好,我想请教一下开发者体验与硬件的关系。我认为 TPU 硬件非常出色,但在社区中有一种观点认为 CUDA 或其他技术比 TPU 更容易使用。请问您对此怎么看?这是您一直在思考的问题吗?有没有收到过很多愤怒的抱怨邮件?
Jeff Dean: 想过,虽然我很少直接接触云 TPU 客户,但毫无疑问,体验还有很大的改进空间。
我们在 2018 年开始研发一套名叫 Pathways 的系统,它的设计目标是让我们能够使用各种不同的计算设备,并提供一种良好的抽象层。在这个系统中,虚拟设备到物理设备的映射由底层运行时系统管理。我们支持 PyTorch 和 Jax。
我们在内部主要使用 Jax,但我们编写了一个单一的 Jax Python 进程,让它看起来就像对应上万个设备一样。你可以像 ML 研究人员那样写代码,然后运行起来。你可以用四、八、十六或六十四个设备进行原型开发,然后只需修改一个常量,就可以切换到支持上千或上万个芯片的 Pathways 后端继续运行。
我们的最大 Gemini 模型就是由单个 Python 进程驱动的,使用了数万个芯片,效果非常好。这样的开发者体验就很理想。
我想说的是,我们之前没有向云客户开放这一功能,但我们在 Cloud Next 上刚刚宣布,Pathways 将向云客户开放。这样一来,所有人都可以享受单一 Python 进程控制数千设备的美妙体验。我同意,这比直接管理 64 块处理器上的 256 个芯片要好得多。
观众:我特别喜欢使用 Gemini API。如果能直接用单一 API 密钥来代替 Google Cloud 凭证设置,那就更好了。你们有没有打算将 Google Cloud 和 Gemini 堆栈跟 Gemini 项目统一起来?目前后者更像是测试版本。
Jeff Dean: 我认为在这方面有一些简化措施正在考虑中。这是一个已知的问题,我个人并不花太多时间在这上面,但我知道 Logan 和其他开发者团队的成员意识到了这个摩擦点。我们希望让用户使用我们的工具变得毫无障碍。
正在考虑,相关的简化措施也在推进当中。我们都清楚这个问题,虽然我本人不太会花时间在这件事上面,但我知道谷歌其他开发者团队的成员已经意识到这个痛点,也希望用户能以更无障碍的方式使用我们的工具。
观众:目前是计算领域一个有趣的时期。摩尔定律和 Dennard 提出的缩放效应都不灵了,而 AI 的扩展却仍在疯狂增长。您则处于一个独特的位置,推动着这些超级计算机和基础设施的发展。更重要的是,您拥有一项独特技能,就是了解如何将工作负载映射到这些系统上。那您认为计算的未来会是什么样子?从理论层面来看,计算基础设施将朝哪个方向发展?
Jeff Dean: 我认为很明显的一点在于,过去五到十年间,我们希望在计算机上运行的计算类型发生了巨大变化。起初这只是一朵小涟漪,但现在已经形成滔天巨浪。我们希望运行性能极高、功耗极低的超大规模神经网络,还希望以同样的方式完成训练。
训练和推理是两种截然不同的工作负载。因此,我认为将两者区分开来很有意义,你可能需要针对这两种任务采用不同的解决方案,或者至少是略有差异的方案。我认为所有的计算平台都将适应这一新现实,即其主要作用就是运行极其强大的模型。其中一些应用将在低功耗环境中完成,例如大家的手机。
我们都希望自己的手机能以极快的速度运行参数庞大的模型,这样在和手机对话时,它可以迅速回应并帮我们完成各种任务。我们也将在机器人和自动驾驶汽车中运行这些模型。目前我们已经在某种程度上实现了这一点,但更好的硬件将使这些系统的构建变得更加容易,也将使真实世界中的具身智能体变得更加强大。同时,我们也希望在数据中心以超大规模运行这些模型。此外,对于某些问题,我们需要使用大量推理计算资源,而对于另一些问题则不需要。
总之我们需要找到一个平衡点:对于某些问题,你应该投入万倍于常规问题的计算资源,这样才能让你的模型更强大,给出更准确的答案,或者让它能完成仅凭少量计算无法完成的任务。但与此同时,我们不应该对所有问题都投入如此多的资源。因此,如何让系统在资源受限的情况下良好运行?我认为这应该是硬件、系统软件、模型和算法技巧(如知识蒸馏)共同作用的结果,所有这些都可以帮助你在有限的计算资源下实现强大的模型。
Bill Coughran:我注意到的一件事是,传统计算机科学在研究算法和计算复杂度时,是以操作计数为基础的。随着人们对硬件和系统设计细节的重新重视,我发现一种新的趋势:我们必须重新考虑网络带宽、内存带宽等因素。因此,我认为传统的算法分析需要完全重写,因为现实中的计算模式已经完全不同了。
Jeff Dean: 我在研究生时期的室友做过关于缓存感知算法的论文,因为大 O 表示法没有考虑到某些操作可能比其他操作慢 100 倍的事实。没错。在现代的机器学习计算中,我们非常关注数据移动的微小量级差别——比如从 SRAM 移动到累加器的成本可能是极小的皮焦耳,但已经远远高于实际运算的成本。因此,如今掌握“皮焦耳”这个概念是非常重要的。
观众:你谈到过扩展预训练和当前的强化学习扩展。你如何看待这些模型的未来轨迹?是继续使用一套占据全部计算资源的单一模型,还是使用从大模型中蒸馏出来的多个小模型协同工作?你如何看待未来的 AI 模型格局?
Jeff Dean: 我一直都很看好稀疏模型,也就是在模型的不同部分具有不同专业知识的结构。这借鉴了我们对生物大脑的粗略理解,正是人脑的这种结构让我们在 20 瓦特的功耗下也能完成很多事情。当我们担心倒车时碰上垃圾车时,脑袋里的莎士比亚诗歌模块并不会活跃起来。
我们在混合专家(mixture-of-experts)模型方面做了一些早期工作,其中使用了 2 到 48 个专家,并发现这种模型可以带来显著的效率提升。比如在相同训练 FLOPs 下,模型质量提升了 10 到 100 倍。这非常重要。
但我认为我们还没有充分探索这个领域,因为目前人们所使用的稀疏性模式过于规则。理想情况下,我希望模型中存在某些路径,其计算开销是其他路径的百倍甚至千倍;我同时希望模型中的某些部分计算量很小,而另一些部分则非常庞大。或许它们的结构也应该不同。
我还希望模型能够动态扩展,添加新的参数或新的空间片段;或许我们可以通过蒸馏过程压缩某些部分,使其缩小至原来的四分之一大小。然后,后台可以像垃圾回收机制一样,释放出这部分内存,再将其分配到其他更有用的地方。对我来说,这种更加有机、连续的学习系统,比我们今天所拥有的固定模型更具潜力。唯一的挑战在于,我们目前的做法已经非常有效,因此很难彻底改变现有的做法来实现这种新模式。但我坚信,这种模式比我们目前的刚性模型结构具有巨大优势。
来源:商财洞察君