摘要:深度学习顶会NeuralPS2024上,Ilya意外现身会场做了主题演讲。AI巨佬上来就是王炸:直接断言当下大模型的核心“预训练”机制即将走到终结。同时提出了对未来AI进展方式的展望。
深度学习顶会NeuralPS2024上,Ilya意外现身会场做了主题演讲。AI巨佬上来就是王炸:直接断言当下大模型的核心“预训练”机制即将走到终结。同时提出了对未来AI进展方式的展望。
我想感谢组织者选择这篇论文获得这个奖项。这真的非常好。我还要感谢我出色的合著者和合作伙伴,Oriol Vinyals 和 Quoc Le,他们刚才就在你面前。
你们现在看到的是一张图片,一张截图,来自十年前2014年在蒙特利尔 NeurIPS 会议上的类似演讲。这是一个更加无邪的时代。这是我们,当时拍摄的照片。这里是之前的场景。顺便说一下,这里是之后。
现在我们有了我经验丰富的,可能是护目镜的视角。但在这里,我想谈谈这项工作的内容,或许进行一个十年的回顾。因为在这项工作中的很多观点是正确的,但有些则不是。我们可以回顾这些观点,看看发生了什么,以及它是如何温和地演变成我们今天所处的位置。
那么让我们先谈谈我们做了什么。我们将通过展示十年前同一次演讲的幻灯片来进行总结。我们工作的总结如下三点:这是一个基于文本训练的自回归模型,一个大型神经网络,还有一个大型数据集。现在让我们更深入地探讨一些细节。这是一张十年前的幻灯片,还不错。我们在这里讨论的是深度学习假设:如果你有一个十层的大型神经网络,它可以在一瞬间完成任何人类能够完成的事情。
为什么我们如此强调人类在短短一秒钟内能够做的事情?为什么特别是这个内容?如果你相信深度学习的教义,或认为人工神经元和生物神经元是相似的,或者至少差异不大,并且相信真实的神经元比我们人类快速完成的任何事情都要慢,我甚至是指全世界的某一个人。如果全世界有一个人能在一瞬间完成某项任务,那么一个十层的神经网络也可以做到。这就成立了。你只需将他们的连接提取出来并嵌入到你的人工神经网络中。
这就是动机。任何一个人能够在一瞬间完成的事情,一个大型的十层神经网络也能够做到。我们专注于十层神经网络是因为当时我们只知道如何训练这样的网络。如果在层数上有所突破,就可以做更多的事情。但在那时我们只能做到十层,这就是为什么我们强调人类在瞬间内能做的任何事情。这是演讲中的另一张幻灯片,说明我们主要想法的一张幻灯片。你可能能够识别出两个东西,或者至少一个东西。你可能会意识到这里发生了一些自回归的事情。
它到底在说什么?这张幻灯片到底在说什么?
这张幻灯片讲的是,如果你有一个自回归模型,并且它能很好地预测下一个标记,那么它实际上能捕捉到接下来序列的正确分布。而这在当时是相对较新的事情。这并不是字面意义上的第一个自回归神经网络,但我认为它是第一个我们真正相信如果你训练得很好,那么你将获得任何你想要的自回归神经网络。在我们的案例中,彼时的任务是谦逊的,今天看来依旧谦逊,但当时却是极为大胆的翻译工作。
现在我将向你展示一些许多人可能从未见过的古老历史。它被称为LSTM。对于那些不熟悉的人,LSTM是以前贫困的深度学习研究者在变换器出现之前所做的事情。它基本上是一个ResNet,但旋转了90度。所以这就是LSTM。它出现得更早,有点像是略微复杂的ResNet。你可以看到这里是你的积分器,现在称为残差流,同时还有一些乘法运算。这稍微复杂了一些,但这就是我们所做的。这是一个旋转了90度的ResNet。
我想强调的另一个来自那次旧演讲的酷炫特点是我们使用了并行化。但不仅仅是任何并行化,我们使用了流水线,如同每个GPU一层的证据所示。
流水线是明智的吗?
正如我们现在所知,流水线并不是明智之举。但在那时,我们没有那么聪明。所以我们使用了这个,并在使用八个GPU时获得了3.5倍的加速。
而结论幻灯片在某种意义上,正是当时演讲的结论幻灯片,是最重要的幻灯片。因为它清楚地阐明了可以说是扩展假设的起点,也就是说,如果你拥有一个非常大的数据集,并且训练一个非常大的神经网络,那么成功是有保证的。有人可以争辩,如果你是宽容一点的话,这确实是在发生的事情。
我想提到另一个想法。而这个,我声称,是经得起时间考验的真正想法。这是深度学习本身的核心理念。这是连接主义的理念。这是一个思想,如果你允许自己相信人工神经元在某种程度上类似于生物神经元,那么这会给你信心,相信非常大的神经网络不需要与人类大脑同等规模。它们可能会小一些,但可以配置它们做几乎所有人类所能做的事情。这仍然是有区别的,因为人类大脑还会想办法重新配置自己。
我们使用的最佳学习算法需要的数据信息点与参数数量相同。在这方面,人类仍然更优秀。不过,这导致了我所称的“预训练时代”的到来。
预训练时代是指我们所讨论的GPT-2模型、GPT-3模型和缩放法则。我想特别提到我的前同事Alec Radford、Jared Kaplan和Dario Amodei,感谢他们做出的真正贡献。这一切推动了我们今天看到的所有进步,尤其是超大型神经网络。它们在巨大数据集上进行异常庞大的训练。
但是,预训练如我们所知无疑将会结束。预训练将会结束。它为什么会结束?
因为虽然计算能力通过更好的硬件、更好的算法和更大的集群在增长,但所有这些都在不断增加你的计算能力。可是数据并没有增长,因为我们只有一个内部网。你甚至可以说,数据是人工智能的化石燃料。它像是某种方式被创造出来的,现在我们使用它,但我们已经达到了数据的巅峰,再也不会有更多了。我们必须处理我们拥有的数据。我仍然认为这会让我们走得很远,但这只是一个内部网。
所以,在这里我会稍微放肆一下,推测一下接下来会发生什么。实际上,我不需要推测,因为很多人也在推测,我会提到他们的推测。你可能听过“代理”的说法。这很常见,我相信最终会发生某些事情,但人们觉得某些代理是未来。更具体地说,还有些模糊的方向是合成数据。
但合成数据是什么意思?
弄清楚这一点是一个大挑战,我确信不同的人在这里都会有各种有趣的进展。以及推理时间计算,或者最近在 O1 模型中看到的比较生动的东西。这些都是人们在预训练之后尝试弄清楚该做什么的例子。这些都是非常好的事情。我想提一个来自生物学的例子,我觉得这真的很酷。这个例子是这样的。
很多年前,在一个会议上,我看了一场演讲,有人展示了一张图表。图表显示了哺乳动物的身体大小和大脑大小之间的关系。在这个例子中,是以质量来衡量的。我记得他们在讨论中提到,生物学里一切都那么混乱,但在这里,你有一个罕见的例子,动物的身体大小和大脑之间有着非常紧密的关系。我出于好奇,对这张图产生了兴趣。
于是我在谷歌上寻找这张图。在谷歌图片中,找到了一张相关的图片。这个图像有趣的是,上面展示了各种不同的哺乳动物,以及非人类的灵长类动物,这基本上属于同一类群体。根据我的了解,类人猿是与人类在进化上密切相关的亲属,比如尼安德特人,还有许多其他的,可能称为能人。他们都在这里。有趣的是,他们的脑-体比的斜率指数不同,这很酷。这意味着有先例,有生物学找出某种不同缩放的例子,显然有些东西是不同的,所以我觉得这很酷。
顺便说一下,我想强调,这个x轴是对数尺度。你看,这里是100,这里是1,000,10,000,100,000,以克为单位:1克,10克,100克,1,000克。所以,事情有可能会有所不同。我们正在做的事情,迄今为止所扩展的事情,其实是我们最初找到的扩展方式。毫无疑问,整个领域,所有在这里工作的人,将会找出该做什么。
但是,我想在这里谈一谈,我想花几分钟时间来推测一下更长远的未来。我们都朝哪里走呢?我们在取得所有这些进展,真是令人惊讶。十年前,当您回顾这个领域时,还记得一切是多么无能吗?您当然可以说,即使已经有深度学习技术,但看到它的实际应用仍然难以置信。我无法完全表达那种感觉。
您知道,如果您在过去两年才加入这个领域,与计算机对话并得到回应是理所当然的事情,这就是计算机的本质。然而,这并不总是如此。
我想稍微谈谈超级智能,这显然是这个领域的发展方向。这是我们在这里构建的内容。超智能的特点是,它在质量上将与我们现有的技术截然不同。
接下来一分钟,我的目标是尝试给您一些具体的直觉,让您自己能够推理出它会有多么不同。现在我们拥有令人难以置信的语言模型及其出色的聊天机器人,它们甚至可以做到一些事情,但在某种程度上又奇怪地不可靠,会感到困惑,同时在评估中表现出惊人的超人能力。因此,如何调和这个问题真的很不清楚。但最终,系统迟早会实现具备代理能力的目标。目前,这些系统在有意义的层面上还不是代理。它们只是微弱地开始具有代理性功能。系统实际上会进行推理。
顺便提一下推理的问题:一个进行推理的系统,推理越多,越不可预测。我们习惯的深度学习非常可预测,因为其本质上是在复制人类的直觉反应。
如果我们考虑到0.1秒的反应时间,我们大脑中的处理就是直觉。所以我们赋予了人工智能一些直觉。但是推理却是不可预测的,我们看到了一些早期的迹象。其中一个原因是,因为下棋的人工智能,即便是对最优秀的人类棋手来说,也是不容易预料的。
因此,我们将不得不面对极其不可预测的人工智能系统。它们将从有限的数据中理解事物,不会感到困惑,而这些都是目前的重大限制。顺便说一下,我并不是在谈论如何,也不是在谈论何时。我只是说这会发生。当所有这些事情发生时,加上自我意识,因为为什么不呢?自我意识是有用的。它是我们自己的一部分,是我们自己世界模型的一部分。当所有这些事情汇聚在一起时,我们将拥有与今天截然不同的质量和属性的系统。它们将拥有令人难以置信和惊人的能力。但是,这样的系统所带来的问题,我将把它留作想象的练习。这与我们习惯的非常不同。
而且,我会说,预测未来肯定也是不可能的。真的,各种事情都是可能的。但在这个振奋人心的音符上,我将结束。非常感谢。谢谢。
(全场长时间掌声)
来源:全产业链研究一点号