摘要:具体来说,如果在 3-5 年内,语言模型能够执行大多数(或所有?)超出人类专家水平的、在经济上有用的认知任务,我不会感到惊讶;同样,如果在 5 年后,我们拥有的最佳模型比今天的模型更好,但仅仅是“常规”方式的提升:成本大幅下降、能力持续提升,但没有那种颠覆世界
翻译:学术君
原文作者:Nicholas Carlini,Google DeepMind 研究科学家
原文链接:
我对于大语言模型(LLM)未来的发展持有非常宽泛的不确定性,我认为你也应该如此。
具体来说,如果在 3-5 年内,语言模型能够执行大多数(或所有?)超出人类专家水平的、在经济上有用的认知任务,我不会感到惊讶;同样,如果在 5 年后,我们拥有的最佳模型比今天的模型更好,但仅仅是“常规”方式的提升:成本大幅下降、能力持续提升,但没有那种颠覆世界秩序的根本性范式转变,我也不会感到惊讶。
在我看来,否认这两种可能性的任何一种,都是一个错误。(重要的是,我并不是在说任何一种情况更有可能,我预期结果会处于中间,但我认为这两种可能性都应被认真对待。)
为什么我认为这两种未来都是可能的?
一方面,也许我们才刚刚开始探索整个语言模型领域。在 5 年内,我们已经从那些勉强能连贯写出一段文字的语言模型,发展到了能够解决相当于早期博士生水平数学问题,并以顶尖竞赛程序员水平编写代码的语言模型。(模型在)基准测试的表现正以我们能够创建的最快速度提升,而指数增长远比我们想象的快——所以,谁知道再过 5 年会发生什么呢?
另一方面,也许我们会继续经历一段增长期,但在 1-2 年后,我们会达到 LLM 能力的极限。也许可用的训练数据会耗尽,或者我们无法获得足够的计算资源,亦或是资金枯竭,或者 Transformer 模型的能力会像过去 SVM 那样存在硬性上限。之后,或许 LLM 会变得更便宜、更快,但不会继续保持目前这种指数级增长。不过,目前的模型已经足够强大,以至于 5 年后 LLM 很可能会被整合进更多产品中,这将是件大事,但不会改变人类的未来。
根据你是谁,以及你最近阅读了哪些关于“AI”语言模型的内容,你很可能会对这两种观点中的某一种持有截然不同的看法。把我和普通对齐研究者放到一个房间里,我就是那个不会“感受到通用人工智能(AGI)”的否定者;但把我和普通程序员放到一个房间里,我就是那个疯狂地认为 LLM 在短时间内有很大可能在编程上远超人类的家伙。
因此,在本文中,我将尝试做一件事,即论证“你应该保持宽广的不确定性”。
我不会通过提出深奥的技术论据来论证这一点,因为我感觉大多数人都是先决定自己想相信什么,然后再去寻找支持其结论的证据。所以,在这里,我想尝试给你一种直观的感觉,解释为什么你应该预留宽泛的误差范围。从这里开始,你可以自由地寻找那些技术论据来证明你希望相信的哪一方。
我想先谈谈谦逊(Humility),这里的谦逊是指理解你实际上可能不是一个不会犯错的未来预测者。仅仅因为你几年前曾经相信(并广泛宣称)某件事,并不意味着你必须继续坚信这一点。
具体来说:完全可以说“我错了。我已经改变了想法。”来,我这就给你展示。
我错了。我改变了主意。回顾并重新审视我大约从 2018-2021 年的早期言论,对我来说是一种极好的谦逊练习:我显然对 LLM 未来潜力的看法是错误的。这是因为,我曾坚定地认为“这些模型只是好玩的玩具,根本没有实际的现实世界效用”。我把它们当作用于情感分析、翻译等特定任务的研究玩具,而从未将它们视为通用技术。即使在 GPT-2、GPT-3 和 PaLM——这三种在当时具有突破意义的语言模型发布之后,我依然坚持这种看法:“哦,那个 5400 亿参数的模型能解释笑话?真可爱;等它能做点有用的事再告诉我。”
但正如我此前讨论的那样,语言模型现在已经在我的工作中变得极为有用。我 5 年前对这些模型未来潜力的看法大错特错,而且我也愿意承认,将来我可能还会犯错。
当今世界的变化,比以往任何时候都要快;因此,30 年、10 年甚至 2 年前曾经正确的事情,如今可能都不再成立。因为新事物而拒绝接受某些观点是再自然不过的。改变你曾经深信不疑的东西,总是不舒服的。
但作为“技术人员”,我认为这正是使我们成功的原因:我们能够理解未来可能与过去不同,而曾经看似不可能的事情可能真的变为可能。所以,正如我上面所说,根据你是谁以及你过去读过的内容,你可能会觉得我明显错了。也许我是错的,但也许你才是错的。
我们应该保持宽泛误差范围的理由很简单。当前 LLM 的方法正在奏效,且没有放缓迹象,所以正如我所说,它完全有可能继续有效。但也有可能某些环节会崩溃,某些问题比我们想象的更难,而整个体系(也可能)就此崩溃。
1.界定能力上限的挑战
或许,人们对 LLM 最终不会成功的最常见批评是类似这样的:是的,这些模型确实在不断进步,但它们在能够达到的极限上存在某种根本限制。如果你想登月,你可以通过建造越来越高的塔来接近月球,但这只能带你走到一定程度。然后你尝试全新的方法,比如制作热气球。热气球可以比塔爬得更高!但它仍然不能送你上月球。这就是现实的运作方式。最终你会发现,火箭的出现确实能把你送上太空。
也许人工智能也是如此。我们一开始认为,只需简单的机器学习方法就可以实现 AI 的愿景;广为流传的是,在 1970 年代,马文·明斯基曾说:“3-8 年内,我们将拥有一台具有普通人类智力的机器。我的意思是一台能够阅读莎士比亚、给汽车加油、讲笑话、打架的机器。”显然,这一预言并未实现。后来,我们认为,也许正确的 AI 方法是符号推理,于是构建了专家系统,但也未能成功。谁又能说深度神经网络不会遇到同样的问题呢?
我曾经也持有这种看法。
问题在于,你可以指出物理定律来解释为什么塔和热气球无法将你送上月球;而对于 LLM,却没有这样的物理定律:相反,人们只是提出一系列论据,形如“这里有一道我认为 LLM 永远无法跨越的界限(基于某些原因)”。
但这些界限实际上并不是自然法则;它们更像是我们对世界的假设。就在 6 个月前,人们还在讨论 LLM 即将达到平台期,我们不会看到比 GPT-4 更好的模型;然后使用强化学习的 o1/o3 和 r1,向我们展示了模型可以基于自身输出自我改进,至少能迈出一小步。所以有人就说,“好吧,也许那条界限不对,但我现在划的这条才是真正的极限。”也许这一次他们是对的,也许不是。
所以:如果你目前相信 LLM 会有某个根本极限,因为存在某道它们无法逾越的界限,那么这里给你一个练习:现在就预先设定一道你认为解释了 LLM 根本极限的具体界限。如果某一个被跨越,你就会不得不说“好吧,我错了,也许划出一条明确的界限并不那么容易。”
这正是我大约在 2021 年,当其他人开始意识到 LLM 可能很重要时所做的。我曾不相信 LLM 的应用,因为在我看来,仅凭预测下一个 token 的训练不可能让模型在超过几段文字时依然保持连贯。我曾相当确信:下一个 token 预测(1)无法让模型构建内部世界模型,因此(2)只能停留在简单的统计性“下一个 token 预测器”阶段。
但事实证明,LLM 远比我预期的强大得多。它们已经远远超越了我曾划定的任何界限。
因此,对我来说,现在基本上无法划定一个明确的界限。这更像是一个连续渐进的难度谱,我认为 LLM 有可能继续扩展。但让我给你举几个可能的界限候选项,即使我们无法用物理定律证明它们不可能,你也可能认为这些是 LLM 的根本极限。如果你不喜欢这些,也许可以提出你自己的界限。但我认为,如果你持有这种信念,你应该能够清楚地表达出下一道界限是什么,并且如果我们跨越了它,你也愿意改变主意。那么,让我们尝试这些可能的界限;也许你相信……
LLM 无法从少量数据中泛化:因此,它们永远不可能仅仅通过阅读规则就学会玩一种新棋盘游戏,或者仅通过阅读手册就学会一门新编程语言。(注:这在某种程度上已经被证明不全然正确。最近的 o3 模型表明,它可以仅用少于 4 个例子解决 ARC-AGI 问题,尽管成本非常高。)
LLM 只能生成低于训练数据“智能”水平的输出:因此,它们永远不可能在低质量文本数据集上训练后,输出明显优于其训练样本中的最佳示例。(注:这同样在某种程度上已被证明不全然正确。国际象棋研究表明,经过低水平人类棋局训练的 LLM,其棋艺水平可超越它们所训练的任何棋局。)
LLM 具有有限的计算深度:因此,它们永远无法解决需要提前推理超过固定步数的问题。(注:这也在某种程度上不完全正确。我稍后会讨论,“思维链”显示 LLM 可以花费多个标记来准备答案,而不仅仅是一步。)
LLM 无法生成新知识:因此,它们永远只能做我们今天已知的事情。撇开大多数“新”事物实际上只是将旧思想应用于不同问题这一事实不谈,这也许是我能想到的最后一道我们可能无法跨越的障碍。但这道障碍也很难用正式语言表述,因为“新”通常仅意味着“将旧思想应用于不同的问题”。
2.谁来承担举证责任呢?如果我声称,有可能制造出一台能做任何人类所能做的事且表现更出色的神奇机器,那么我就有责任证明这是可能的。我不能说“好吧,你无法证明这是不可能的!”
而我认为,大多数人,即便是那些坚信 AGI 即将到来的人,也会认为从当前 LLM 到它们能够成为完全 AGI 系统之间,还有很长的路要走。因此,我们很可能需要克服许多挑战才能达到那个目标。谁能说,仅仅因为我们已经跨越了几道界限,就没有更大的障碍在前方?
有太多因素可能会使得 LLM 难以继续扩展。(我们)可能会耗尽训练数据;可能会缺乏足够的计算资源;可能需要比预期更多的计算资源,才能达到下一个性能水平;可能最终可以达到这一水平,但资金枯竭,因此我们无法尽快实现;可能我们正在使用的非符号化 LLM 存在某种硬性能力极限;可能存在某种软性能力极限,需要一种新的架构或训练方法。
在过去 6 个月中,我们看到通过强化学习训练模型是可能的,但也许这只是一个“一次性妙招”,无法持续发挥作用。也许我们会找到更多类似的技巧,但每个新技巧的发现都比上一个更难。
过去,每当我们尝试扩展一项技术时,总会遇到必须解决的问题。最初计算机依靠真空管运作,而且很明显(依据物理定律),你不可能建造出每平方英寸有 100 万个真空管的计算机——这根本不可能。但随后我们发明了晶体管,基本上完全解决了这个问题。同样,晶体管也会遇到物理极限(如果尚未遇到的话),到那时,我们将不得不提出新的技术。
就在过去几周内,我们开始看到这种迹象。GPT-4.5 在我们能够测试的几乎所有 benchmark 中仅比 GPT-4 略好一些。也许它有更好的“氛围”,但这并非我们可以定量衡量的东西。甚至,训练该模型的 OpenAI 人员在技术报告中也写道“GPT-4.5 并非前沿模型”,并且他们似乎对结果并不十分满意。
也许从现在起,情况就是这样。我们将花费 10 倍的资金训练一个模型,其服务成本也会增加 10 倍,而我们的劳动成果仅仅是比上一个模型“略有改进”。
但重要的是,我们要接受一个事实,即没有明确的物理定律解释为什么这必须是这种情况,就像有物理定律限制了你能制造的真空管有多小。
所以,这就是我今天的立场。我仍然相信,总有某种根本因素会阻碍我们构建能力呈指数增长的 LLM。但我必须坦白,我完全不知道那种限制会是什么。我没有证据证明这条界限的存在,只能提出一个模糊的论点:当你试图跨越多个数量级来扩展某样东西时,很可能会遇到意料之外的问题。
而人们过去划定的那些简单界限,在我看来都并非根本性限制,至少在未来几年内是如此。所以,我实际上不确定到底谁来承担举证责任:也许,一旦有人展示了跨越 6 个数量级的扩展趋势,然后宣称这种趋势还会持续另外 3 个数量级,我就得解释为什么他们的趋势是错误的?
这便解释了我宽泛误差范围的原因。未来 3 年内实现 AGI?有可能。未来 5 年内能力停滞?也有可能。
两个假设性的故事1.未来情景一:指数增长的可能性有时,我们会偶然遇到一项特别的技术,并且它能推动自身的改进。
也许,最好的、最近的例子就是摩尔定律。你制造出更好的计算机,这些计算机使你能够开发出更好的科学与工程工具,而这些工具又促使你制造出更好的计算机。通往 3 纳米制造的最短路径是先通过 5 纳米制造。如果你是 70 年代的人,想制造出 3 纳米工艺节点,你不可能在不先建造(接近)5纳米节点的情况下做到这一点。
但过去还有其他类似的例子。如果你想制造高精度机械,有一台(稍低精度)的机械来制造你的高精度机械会非常有帮助。你制造的每台机器都可以让你设计出比前一台更高精度的部件。一台仅有 1 厘米精度的机器根本无法用来制造出 1 纳米精度的机器;你先用第一台制造出第二台更精确的机器,如此类推。
也许,机器学习正是一种如此运作的技术。有些人早就假设,我们会达到某种“奇点”,到那时,我们能够制造出一台通过例如从零开始重写自己的代码并发明新、更好的算法来自我改进的机器。到目前为止,机器学习进步的主要驱动力一直是投入更多资金和计算资源来训练规模更大的模型。但如果我们能利用当前 LLM 的进展直接推动更好 LLM 的发展,那么我们可能会看到极其迅速的进步。我仍然认为,这种情况在某种程度上不太可能。但鉴于今天的 LLM 基本上已经能够编写出一定量的代码来改进更好的模型,我们不应该轻易地排除这种可能性。
此外,我认为,我们甚至不需要拥有能够进行聪明研究、编写自己代码以提升未来版本的模型。你最终可能进入这样一个世界——LLM 帮助改进它们自己的数据集,从而使下一版本变得更好。而这可能在我们具备模型自行编写代码能力之前就会发生。事实上,我们今天非常有可能已经处在这种状态下,只是还未意识到而已。最近强化学习方面的进展几乎展示了这一点。
具体来说:你如何得到 DeepSeek r1?你使用 DeepSeek v3,让它解决一系列难题,当它答对时,就训练它多做那些正确的事情,少做那些答错的事。这个想法实际上非常简单,而且效果出乎意料地好。
在某种程度上,这并不令人意外。我们一直知道,你可以让一个玩游戏(比如围棋)的模型与自己对弈,从而制造出一个真正高水平的围棋模型。这正是我们得到 AlphaZero 的方式。这与我们现在用 DeepSeek r1 所做的其实没有本质区别。
因此,我认为,我们未来能够拥有更加先进的 LLM,很可能正是因为我们利用这些模型本身来帮助构建更好的模型,无论是通过策划更好的数据集,还是直接更好地编写自己的代码。如果这一切实现了,那么这就为近期出现一些非常先进的 LLM 指明了一条明确的道路。
如果这就是我们将要走向的未来,那么我们应当在不久的将来看到明显的迹象。如果在接下来的 1-2 年内,我们没有看到任何论文或产品展示如何利用当前一代模型的输出来训练下一代模型,那么我将对此未来持更为怀疑的态度。
未来情景二:停滞的可能性当 NASA 在 1958 年成立时,前苏联刚刚将 Sputnik 卫星送入太空。但在 3 年后的 1961 年,NASA 成功将人送入太空,并在那 10 年末期实现了登月。50 年后……我们仍未重返月球。
但是,如果你是 1960 年代那种聪明且富有远见的人,看到这种进展速度,你可能会合理地预期,在几年内我们会在月球建立人类基地,会有人在火星上行走,不久之后甚至开始殖民星际。你甚至可能因此激动到认为,我们未来的指导使命将是探索奇异的新世界;寻找新生命与新文明;大胆前往无人涉足之地。因为,从你今天的角度来看,事情正朝这个方向发展。
但事后回顾,你可以开始理解为何这一切未能实现:当 NASA 在 1958 年成立时,其资金仅占美国联邦政府预算的 0.1%。在接下来的 3 年中,其资金增加了 10 倍,随后在接下来的 4 年中又增加了 4 倍。
从这些数据来看,你可能会对太空旅行的未来充满极大期待。显然,我们将继续投资这项技术,也显然会看到过去那样的增长趋势。那么,究竟是什么可能阻止我们呢?
你不知道,也不可能知道的是,仅仅再过 5 年,美国政府在太空旅行上的支出比例就会下降一半,而且永远不会恢复。在 1969-1972 年间把 12 人送上月球之后,50 年过去了,我们仍未能再现这一成就。
……这并不是说 NASA 项目失败了。没有卫星,现代世界的一半将无法运转。
但在 1960 年代,我们的技术根本没有足够先进,无法支撑我们在太空计划中所见的那种增长:我们是通过蛮力取得(惊人!)成就,而蛮力只能带你走到一定程度。
更糟的是,将人送上月球并不会直接为你带来金钱。它本身没有内在价值。因此,虽然你可能可以说服投资者在一段时间内资助你的项目,但不久之后,他们就会开始问“我们到底能从中获得哪些实在的好处?”
现在,让我们谈谈语言模型。LLM 进步的关键驱动力之一,是我们能够投入更多的资金和数据进行训练。举例来说:2019 年最昂贵的 LLM 训练运行是GPT-2,花费了几万美元。而仅仅 5 年后,我们在最大规模的训练上花费了数千万美元。这些 LLM 确实是一项令人印象深刻的技术,但基本上我们是通过蛮力达到了这一点。
而且,已有迹象表明,这种纯粹的蛮力方法可能会逐渐失效。我前面提到了 GPT-4.5 的例子。连 OpenAI 也不确定这个模型的确切价值是什么。而 Anthropic 方面,在公开表示可能于 2024 年底发布之后,至今仍未发布他们最大的模型 Claude 3.5 Opus。也许它真的没有那么令人印象深刻?(请注意:我将加入 Anthropic,但目前尚未受雇于他们。我完全没有任何内部信息,因此接下来几天我仍可以尽情地进行大胆猜测。)
现在还为时过早,仅凭几个数据点进行泛化总是危险的,但你必须非常乐观,才会认为这种趋势绝对没有继续下去的可能性。
具体来说,我认为这种情况最可能发生的原因之一是,如果各公司继续进行那些极其无厘头的广告宣传,说 AI 可以帮助……比如,你的女儿给她最喜欢的奥运运动员写信?(谁会认为那是个好主意??)如果公众开始对不断的炒作和缺乏实际好处感到厌倦,那么我完全可以预见,投资者会丧失信心,认为下一代模型及其融资轮次将因此而枯竭。即使这些模型本可以带来 AGI 或其他什么,我们可能也会在很长时间后才发现,因为我们因炒作而破坏了持续增长的动力。
所以,在我看来,关键问题是:我们会继续以这种蛮力方式训练 LLM 吗?如果是,那么只要我们愿意投入更多资源,就会继续看到进步。一旦我们的热情消退,进步也会随之停滞。也许这会因另一场经济衰退而发生,或者因为投资者对不断炒作和缺乏实在好处感到厌倦,又或许下一代模型未能提供足够价值,致使投资者对后续模型的前景丧失信心。
如果这就是我们将要走向的未来,那么我预计,在接下来的几年中会出现一些扩展问题和边际效应递减现象。更多像 GPT-4.5 这样的模型被发布,仅是渐进式改进,后期训练相比于其较小的前身并无显著提升。
在资金方面,也许在接下来的一两年内资金会枯竭;目前 OpenAI 和 Anthropic 等公司的融资金额在数十亿到上百亿美元之间。下一轮融资可能达到数十亿到数百亿美元。我预计无论 LLM 是否继续大幅提升,这种情况都会出现。但我认为,在没有为社会带来明确且显著好处(以及使投资者口袋鼓起来)的情况下,我们绝不会看到数百亿到万亿美元的融资。
本文的目的是论证极端的“AI 变得异常强大”与“AI 停滞不前”这两种情况都是可能的。但由于我日常接触的大多数人认为后者更有可能,而且这曾是我所持的信念,所以我想花些时间反驳这种观点。
因为我感觉到,有些人认为 LLM 会停滞不前,隐含的信念是它们实际上不可能变得更好。在他们(以及我过去)的观念中,当前的 LLM 存在某种根本性的能力上限。所以现在我想尝试反驳这种看法,因为我曾经也持有许多类似观点。
1.LLM 只能执行有限计算如今,许多人认为,由于机器学习模型每次输出执行的操作数量是有限的,因此它们的能力基本上仅限于那些可以用有限操作数解决的任务。这意味着它们将无法解决多步推理任务,只能执行简单的模式匹配。
但事实已经不再如此。是的,语言模型每次输出一个 token 时确实只进行有限计算,但它们不必在一步内解决所有问题。如果你要求模型逐步思考,就可以将复杂问题分解成一系列简单步骤。
最近的“推理”模型,如 OpenAI o1/o3 和 DeepSeek r1,就是一个很好的例子,它们经过专门训练,会在输出答案前逐步思考一个问题,输出几百甚至上千个 token。
而且,虽然这些模型一次只能处理几十万个 token 的限制仍在,但这一限制并不是根本性的且已经足够大,我认为它们在实际应用中影响的并不大。正如你的计算机技术上不是图灵机,因为它内存有限、无法进行无限计算一样,LLM 从技术上也不是完全通用的,但这种有限容量的论点在实践中基本无关紧要。
2.LLM 不能解决新任务首先让我们明确一点:“不能”与“目前不能”之间存在一个重要的区别。
研究语言模型的研究人员在预测语言模型永远不能做的事情方面有一个(可以说)糟糕的记录。几年后就被证明是错误的(或者,在某些情况下,被当时已存在的模型证明错误)。
声称 LLM 无法解决新任务是一个大胆的主张。即使我们假定 LLM 永远无法解决已经在训练数据中有所体现的任务,也有大量新颖的研究想法,只是在问“如果把两个不同领域的两个想法结合起来会发生什么”。
我的一些研究就是这样的例子。我最近一些最有趣的工作基本上只是问:“如果将密码分析技术应用于语言模型,会发生什么?”或者“如果考虑训练数据策划的网络安全影响,会怎样?”这两篇论文都并非特别具有突破性,数学上也不复杂;你只需要对文献有广泛了解——而这正是当前模型已经相当擅长的。
3.当 LLM 把简单的事情搞错时,让我们大家一起笑吧这是一个特别令人沮丧的论点。时不时,总有人发推或写博客,展示某模型无法(例如)计算单词“strawberry”中“r”的数量,或者错误地认为数学表达式 9.11 > 9.7 为真。但你绝不应仅凭它表现最差的案例来评价某人(或某物)。我不会抱怨我的计算器是个糟糕的锤子,也不会试图用烙铁来烤面包。当明显有更好的选择时,你就不该使用 LLM。
另外,我始终不理解,我们怎么会从“哇,这模型能识别鸟类?!”转变到“哈哈,这模型太蠢了,看看这个我编的模型解不出的问题!”以前,当模型能解决我们设定的确切任务时,我们会感到惊讶;而如今,当它们无法解决我们甚至未训练过的任务时,我们却感到不满。一个更实质性的批评应是:请你提出一组你确信在近期内无人能解决而人类却觉得简单的问题;但不幸的是,过去每当有人这么做时,没过几个月就会有人来解决那个数据集。
如果你认为你有一个简单任务,未来模型不会轻易解决,我非常乐意与你合写一篇论文,让你列出那组你确信近期内没有模型可以解决而对人类来说却轻而易举的问题,然后我们等上一两年,再看看结果如何。我的猜测(大约 70% 的概率)是 LLM 会胜出,但我也乐于被证明错误,事实上我认为这是完全可能的。(这正是整篇文章的目的!)
4.它不理解!我们会问世界上最好的国际象棋引擎 Stockfish 是否“理解”国际象棋吗?不会。Stockfish 是否“理解”国际象棋并不重要,关键在于它是否能比任何人类下棋下得更好,而我们有充分的证据证明“它可以”。因此,我们何必在乎它是否“理解”国际象棋呢?
同样,我也认为,我们真的不应该太在意今天的模型能否“理解”语言。这个问题不仅定义模糊(“理解”语言究竟意味着什么?),而且在评估它们的实用性时,它们是否理解语言也是无关紧要的。重要的只是它们是否能执行有用的任务。
或许,你认为这些模型说并不那么令人印象深刻。因此,显然它们没有“理解”。如果你提出这样的论点,就像我以前那样,我建议你停下来思考:什么样的最小演示会让你印象深刻?这个演示必须是最简示例。显然,任何人都会对能够解决P =? NP的模型印象深刻。但你确定没有没有更简单的示例会给你留下深刻印象吗?然后写下来。1-2 年后,再回来看看:我们是否解决了你的问题?
机器学习的历史上充斥着这样的人,他们声称 LLM 永远无法解决某个问题,但没过几个月,就有一个模型正好解决了那个问题。所以,我认为你也应该尝试一下:什么样的最小演示可以让你相信模型确实具有某种程度的“理解”?
(现在:也许你会指出,如果我们不了解模型如何或为何可以工作,却依赖它们来执行任务,这是非常危险的。我同意!这确实非常危险。但“那东西可能很危险”并不是对“那东西在许多情况下可能变得非常强大”这一主张的反驳。)
5.但它们的数据效率太低了!语言模型需要在大量数据上训练才能发挥作用,其所需数据远超人类学习同一任务所需的数据量。这确实如此。
但这为什么重要呢?有充分证据表明,虽然我们可能在某个时候会耗尽训练数据,但这在未来几年内不会发生。所以,虽然如果语言模型可以用更少数据学习新任务会更好,但这并不是一个根本性的限制,不会阻止它们在未来几年内变得更强大。
构建能够从更少样本中学习的模型固然美好,但我认为这并不是阻碍我们在未来几年内达到极高能力水平的根本性障碍。
6.它们永远达不到人类水平!计算机能够达到“人类水平”吗?即使给它下定义也基本上是不可能的:在什么方面达到人类水平?下一盘棋?像人类一样,还是只是比人类下得更好?为对手感到遗憾?我认为这个问题基本上无法回答,也不值得我们计算机科学家讨论。“人类水平”甚至无法用单一维度衡量,所以我们还是不讨论这个问题了。
我认为讨论“人类水平”之所以毫无益处,是因为回顾过去,曾经我们认为下棋是人类独有的能力。后来,我们写论文讨论如何让计算机下棋,而且比任何人都好,但显然那些下棋程序并不具备通用智能。
随后,我们或许认为,如果有程序能写诗或谈论历史,那么它就必须达到人类水平并具备通用智能。但如今,我们有了能写诗、谈历史的语言模型,但它们显然并非通用智能。
所以,与其哲学性地讨论“人类水平”意味着什么,不如问问它们是否能完成具体的有用任务,这与它们是否可以被认为是“人类水平”无关。
7.但它们会编造东西!我理解人们对模型编造信息的抱怨。理想状态下,我们不希望模型这样做。
在撰写本文时,即便是 Claude 也时常在文中编造拼写和语法错误。大家都同意,如果它们不编造这些东西会更好。但这种缺陷实际上并不会阻止我们实际应用这些模型。因为我们已经习惯了互联网信息可能出错!没有人期望每个 Stack Overflow 的答案或 Reddit 帖子都百分之百准确。当有人说我们不能使用模型,因为“答案可能不对”时,我就不理解了,因为我们在网上看到的其他任何东西也可能出错!
但假设对你来说,完全不能接受模型编造信息,那也没关系,有大量应用场景实际上可以验证正确性。这在编程领域尤其适用,这是我最关心的领域。你通常可以通过运行代码来检查是否得到正确答案。如果模型凭空虚构了一个不存在的 API 或写出有错误的代码,这并不是大问题——模型可以运行代码验证结果;如果因 API 不存在而失败,它能识别这一点,并改用正确的 API。
这并不是说我对这些风险毫无担忧——实际上我对此非常担忧。但本文的主题不在于广泛部署这些模型后可能带来的风险,而在于我们是否首先能够做到这一点。不过,我主要担心的是,我们可能会有一些模型,它们编造错误的频率足够低,以至于公司会让它们负责重要决策,因为通常来说结果没问题;然后,哎呀,模型犯了一个错误,导致灾难性后果。这将非常糟糕。
结论很显然,LLM 很有用且会越来越好。但我不知道这种趋势会持续多久。
换一种说法:5 年后,当我们再回头看 2023-2025 年的 LLM 炒作时,就像我们现在看到 1998-2000 年的互联网泡沫一样(即:一项非常新的技术最终会产生影响,但在短期内被过度炒作),这种可能性非常大。但我也认为,未来我们回顾 2020 年代中期时,很有可能会将其视为一个新时代的开端,而当我们列举人类最重要的发明时,我们会将“AI”与车轮或印刷机并列。
我希望,我已经成功论证:你应该愿意接受这两种未来中的任一种都是可能的。两者都没有百分之百的保证,但也都绝非毫无可能。
在不久的将来,我们会对这个问题有一个答案。事后回顾,答案会显得非常明显。我们可能会说“当然,scaling 又持续了 5 年,摩尔定律依旧成立,我们为什么不期待 AI 版的摩尔定律也成立呢?”或者我们会说“没有无限的指数增长,很明显 LLM 已经停滞了?”而那些过于自信但最终证明正确的人,将可以理直气壮地说“我早就告诉过你了”。我只希望我们记住,预测未来是困难的,我们实在无法确切知道事情会如何发展。
因此,在未来几年里,我鼓励你保持开放的心态,愿意看到真实的情况,而不是你所期望的样子。我们将学到很多,事情会发生巨大变化,所以我们需要愿意接受所有到来的改变,而不是仅因为不符合预期就拒之门外。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。
截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告
《核聚变,确保 21 世纪美国的主导地位的关键技术》
《世界知识产权组织:2025WIPO 技术趋势报告:交通运输的未来(145 页)》
《世界知识产权组织(WIPO):2024 年世界知识产权指标报告(194 页)》
《联合国环境规划署:2024 年保护地球报告(81 页)》
《联合国工发组织:2024 清洁技术创新能力建设框架研究报告(51 页)》
《凯捷:Applying TechnoVision 2025:未来科技趋势及应用愿景(17 页)》
《谷歌:2025 年 AI Agent 白皮书:AI 智能体时代来临(42 页)》
《富而德律师事务所:2024 年国际仲裁趋势年度回顾报告(41 页)》
《邓白氏:2024 年全球企业破产报告(27 页)》
《LLM 时代小模型的应用潜力与挑战 》(50 页)
《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版 191 页)
《英伟达:2025NVIDIA 自动驾驶安全报告(26 页)》
《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告(23 页)》
《高德地图:2024 年中国主要城市交通分析报告(29 页)》
《德勤 & CAS:2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势(36 页)》
《ABI Research:2025 生成式人工智能在语义和实时通信中的应用研究报告(20 页)》
《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告(45 页)》
《生成式基础模型的可信度 —— 指南、评估与展望》(231 页)
《量子信息科学与技术对国家安全的影响》(118 页)
《中国科学技术信息研究所:2024 科技期刊世界影响力指数(WJCI)报告(68 页)》
《思略特(Strategy&):2025 汽车行业的人工智能(AI)机遇研究报告(12 页)》
《赛默飞:2024 年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18 页)》
《清华大学:2025 年 DeepSeek 与 AI 幻觉报告(38 页)》
《美国企业研究所(AEI):2025 创新未来电力系统研究报告:从愿景迈向行动(71 页)》
《超材料的智能设计研究进展》
《Ember:2030 年全球可再生能源装机容量目标研究报告(29 页)》
《量子信息科学与技术对国家安全的影响》
《英国人工智能安全研究所:2025 年国际人工智能安全报告 - 执行摘要(22 页)》
《世界海事大学:2024 海事数字化与脱碳研究报告:可持续未来(250 页)》
《艾睿铂(AlixPartners):2024 回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18 页)》
《Wavestone :2025 数据与 AI 雷达:掌握数据与人工智能转型的 10 大挑战研究报告(30 页)》
《CSIS:2024 中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120 页)》
《MSC:2025 全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32 页)》
《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告(22 页)》
《中国核电 - 公司深度报告:世界核电看中国 - 250218(22 页)》
《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望 - 250216(28 页)》
《皮尤研究中心:2024 美国社交媒体使用情况研究报告(英文版)(30 页)》
《科睿唯安:2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者(47 页)》
《经合组织(OECD):2025 年全球脆弱性报告(218 页)》
《计算机行业年度策略:AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218(38 页)》
《国金证券研究所:从理想走向现实,全球人型机器人研究报告》
《深度解读 DeepSeek 原理与效应(附 PPT 下载)》
《兰德公司(RAND):2025 借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62 页)》
《凯捷(Capgemini):2025 行业创新洞察:电气化飞机推进系统研究报告(27 页)》
《国际能源署(IEA):2025 全球电力市场报告:至 2027 年的分析与预测(200 页)》
《Zenith:2025 年国际消费电子展(CES)趋势报告:AI 对消费科技、消费行为及传媒营销的变革性影响(17 页)》
《RBC 财富管理:全球透视 2025 年展望报告(33 页)》
《美国国防部和国家安全领域的十大新兴技术》(96 页)
《代理型人工智能全面指南》(45 页 ppt)
《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》(英文版 47 页)
《仲量联行(JLL):2025 美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26 页)》
《未来的太空领域:影响美国战略优势的领域》
《Luminate:2024 年年终美国影视行业报告:数据及趋势洞察(40 页)》
《Anthropic:2025 年 AI 经济影响报告:AI 如何融入现代经济的各类实际任务(38 页)》
【ICLR2025】《LLMS 能否识别您的偏好?评估 LLMS 中的个性化偏好遵循能力》
《改进单智能体和多智能体深度强化学习方法》(219 页)
《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》(英文版 29 页)
《世界经济论坛 & 麦肯锡:2025 以人才为核心:制造业持续变革的当务之急研究报告(40 页)》
《超越 ChatGPT 的 AI 智能体》(82 页 ppt)
《Harris Poll:2024 年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14 页)》
【新书】《人工智能智能体的应用》(527 页)
《哥伦比亚大学:超越 Chatgpt 的 AI agent 综述》
《欧盟标准组织 - 体验式网络智能(ENI)- 基于人工智能代理的下一代网络切片研究》
《中国科学院:2024 开放地球引擎(OGE)研究进展与应用报告(55 页)》
《中国工程院:2024 农业机器人现状与展望报告(70 页)》
《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》
《罗兰贝格:2050 年全球趋势纲要报告之趋势五:技术与创新(2025 年版)(72 页)》
《理特咨询(ADL):2025 解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20 页)》
《埃森哲:技术展望 2025—AI 自主宣言:可能无限信任惟先 - 摘要(12 页)》
《怡安(AON):2025 年气候和自然灾难洞察报告(109 页)》
《美国安全与新兴技术中心:2025 AI 翻车事故(AI incident):强制性报告制度的关键要素研究报告(32 页)》
《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告 》(英文版 64 页)
《欧洲创新委员会(EIC):2024 年科技报告(65 页)》
《大模型基础 完整版》
《国际人工智能安全报告》(300 页)
《怡安(AON):2025 年全球医疗趋势报告(19 页)》
《前瞻:2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式(57 页)》
《联合国(United Nations):2024 技术与统计报告:从业者投资法指南(67 页)》
《经济学人智库(EIU):2025 全球展望报告:特朗普再次当选美国总统的全球影响(16 页)》
《大规模视觉 - 语言模型的基准、评估、应用与挑战》
《大规模安全:大模型安全的全面综述》
《Emplifi:2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察(37 页)》
《DeepMind:2025 生成式魂灵:预测人工智能来世的益处和风险研究报告(23 页)》
【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》
《世界银行:2025 极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76 页)》
《北京理工大学:2025 年中国能源经济指数研究及展望报告》
《Space Capital:2024 年第四季度太空投资报告(22 页)》
《NetDocuments:2025 年法律科技趋势报告(32 页)》
《CB Insights:2024 年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130 页)》
《Artlist:2025 年全球内容与创意趋势报告(59 页)》
《IBM 商业价值研究院:2024 投资人工智能伦理和治理必要性研究报告:AI 伦理前线五位高管的真实故事(24 页)》
《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》
《清华大学:2025 年 DeepSeek 从入门到精通(104 页)》
《麦肯锡:2025 工作场所中的超级代理 (Superagency):赋能人类解锁人工智能的全部潜力(47 页)》
《凯捷(Capgemini):科技愿景 2025:关键新兴科技趋势探索(54 页)》
《硅谷银行(SVB):2025 年上半年全球创新经济展望报告(39 页)》
《BCG:2025 工业运营前沿技术:AI 智能体 (AI Agents) 的崛起白皮书(26 页)》
《DrakeStar:2024 年全球游戏与电竞行业报告(26 页)》
《理特咨询(ADL):2025 人工智能驱动的研究、开发与创新突破的新时代研究报告(80 页)》
《互联网安全中心(CIS):2024 年网络安全冬季报告:回顾与展望(30 页)》
《方舟投资(ARK Invest):Big Ideas 2025 - 年度投研报告(148 页)》
《DeepSeek:2024 年 DeepSeek-V2 模型技术报告:经济、高效的混合专家语言模型(52 页)》
《CB Insights:2024 年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273 页)》
《全国智标委:2025 城市生命线数字化标准体系研究报告(105 页)》
《经合组织(OECD):2024 年全球政府创新趋势报告:促进以人为本的公共服务(46 页)》
《DeepSeek_R1 技术报告》
《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么?》
《李飞飞最新 S1 模型的论文:s1 Simple test-time scaling》
《世界经济论坛 -《全球经济未来:2030 年的生产力》报告》
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》
《百页大语言模型新书》(209 页 pdf)
《量子技术和网络安全:技术、治理和政策挑战》(107 页)
《大语言模型中的对齐伪造》(137 页)
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军 232 页)
《美国防部 CDAO:人工智能模型的测试与评估》(66 页 slides)
《自动驾驶的世界模型综述》
《Questel2024 深度学习领域专利全景报告》(英文版 34 页)
《深度解析 Palantir》(20250122_204934.pdf)
上下滑动查看更多
来源:人工智能学家