摘要:发布基于Blackwell架构的RTX 50显卡系列,RTX5070售价549美元,性能与1499美元的RTX 4090相当;互联网每年产生的数据量几乎是去年的两倍,在未来几年内,人类将产生的数据量将超过人类自古以来所产生的总数据;发布全新互联技术NVLink
内容要点
发布基于Blackwell架构的RTX 50显卡系列,RTX5070售价549美元,性能与1499美元的RTX 4090相当;
互联网每年产生的数据量几乎是去年的两倍,在未来几年内,人类将产生的数据量将超过人类自古以来所产生的总数据;
发布全新互联技术NVLink72,使模型训练成本减少3倍;
源允许商用的世界基础模型Cosmos,经2000万小时训练,真正理解世界物理动态,加速自动驾驶和下一代机器人训练研发;
发布下一代汽车处理器Thor,处理能力是上一代Orin的20倍,目前已全面投产;中国合作伙伴包括比亚迪、理想、极氪与沃尔沃。
通用机器人的ChatGPT时刻即将到来;
桌面级超级计算中心Project DIGITS搭载联发科设计的GB10 GPU,能运行2000亿参数;
宣布两大方向模型服务:灵活开发的NIM微服务,提供工作流的AI蓝图。
(下为全文:)
欢迎来到CES!你们兴奋地来到拉斯维加斯吗?你们觉得我的夹克怎么样?我想我可以和Gary J. Shapiro(CES总裁)的风格有所不同。毕竟我在拉斯维加斯。如果你们都不满意,那就习惯吧。我真的觉得你们需要消化一下。因为再过1个小时左右,我会让你们满意。
欢迎来到NVIDIA,我们将带您领略NVIDIA的世界。女士们、先生们,欢迎来到NVIDIA。这里的一切都是由人工智能生成的。这是一个非凡的旅程,也是一个非凡的年份,始于1993年。通过NV1,我们希望构建能够执行普通计算机无法完成的任务的计算机。NV1使得在您的个人电脑上拥有成为游戏主机的能力。
我们的编程架构名为UDA,直到不久之后才有了字母C,但UDA,统一设备架构。第一个为UDA开发的应用程序是世嘉的《VR战士》。六年后,在1999年我们发明了可编程GPU。这开启了超过20年的惊人进步,GPU这一神奇的处理器让现代计算机图形成为可能。现在,30年后,世嘉的《VR战士》已经完全电影化。这是即将推出的新《VR战士》项目。我迫不及待地想看到它,绝对令人难以置信。六年之后,UDA诞生了。
在1999年后的六年里,我们发明了CUDA,以便能够向一系列能够从中受益的算法解释或表达我们GPU的可编程性。最初,CUDA很难解释,实际上花费了多年时间,大约六年。无论如何,大约六年后,也就是在2012年,Alex Kershevsky、Ilya Suskovor和Jeff Hinton发现了CUDA,并用它来处理AlexNet(一个卷积神经网络),接下来的发展便成为了历史。从那时起,人工智能以惊人的速度发展。起初是感知AI,现在我们能够理解图像、文字和声音,走向生成式AI。
现在我们谈论的是代理性AI,也就是那些能够感知、推理、计划并采取行动的AI。
接下来是下一阶段,即物理AI,这也是我们今晚将讨论的一部分,它始于2012年。然后在2018年,神奇的一年里,发生了一件令人难以置信的事情。谷歌发布了Transformer模型的BERT,自此AI领域真正迎来了腾飞。正如大家所知,Transformers彻底改变了人工智能的格局。事实上,它甚至彻底改变了整个计算领域的格局。我们深刻认识到,AI不仅仅是一个新应用领域或新的商业机会,更重要的是,由Transformers驱动的机器学习,将从根本上改变方式。
计算在每一个层面上都发生了革命性变化,从手动编码指令以运行在CPU上的软件工具,到我们现在拥有的可以创建和优化神经网络并在GPU上进行处理的机器学习,从而生成人工智能。技术堆栈的每一个层面都已经完全改变,这在过去12年中是一次令人难以置信的变革。现在,我们能够理解几乎任何形式的信息。你们肯定见过文本、图像和声音等内容,但我们不仅能理解这些,我们还能理解氨基酸,理解物理。我们不仅理解它们,还能够翻译和生成它们。
应用的可能性几乎是无穷无尽的。事实上,市场上几乎所有的AI应用,都是通过什么样的输入模态学习而来的?它又把什么样的信息模态转换成了什么,最终生成了什么样的信息模态?如果你问这三个基本问题,几乎每个应用都可以得到推断。因此,当你看到一个又一个以AI驱动、以AI为本质的应用时,这一基本概念必然存在。机器学习改变了每一个应用的构建方式,改变了计算的方式,以及超越这些的可能性。正如GeForce GPU,在很多方面,所有这些与AI相关的成就都是GeForce所建立的。GeForce使得AI能够惠及大众。那么,现在呢?人工智能回归GeForce。
许多事情没有人工智能是无法完成的。现在让我给你展示其中的一部分。
……(宣传片)
没有任何计算机图形研究者或计算机科学家会告诉你这是可能的。
我们可以为每一个像素进行光线追踪。光线追踪是光的模拟。你看到的几何形状数量绝对惊人。如果没有人工智能,这一切都是不可能的。我们做了两件根本性的事情。我们当然使用了可编程着色和光线追踪加速,产生了极其美丽的像素。然后,我们让人工智能根据那个像素进行调节和控制,以生成大量其他像素。它不仅能够在空间上生成其他像素,因为它知道颜色应该是什么,而且它是在 NVIDIA 的超级计算机上进行训练的。因此,运行在GPU上的神经网络能够推断和预测我们没有渲染的像素。不仅如此,这被称为DLSS(超分辨率技术)。
最新一代的DLSS不仅仅是生成帧。它还能预测未来,为每一帧计算生成三个额外的帧。你看到的,如果我们只是说你看到的四帧,因为我们将渲染一帧并生成三帧。如果我说四帧在全高清和4K下,那就是大约3300万个像素。在这3300万个像素中,我们只计算了两个。能够计算出200万个像素,并让人工智能预测其余的3300万个像素,简直是个绝对的奇迹。结果,我们能够以令人难以置信的高性能进行渲染,因为人工智能的计算量大大减少。
当然,这需要大量的训练才能实现,但一旦训练完成,生成过程极其高效。因此,这是人工智能的一项令人难以置信的功能,这也是为什么有如此多惊人的事情正在发生。我们利用GeForce推动人工智能的发展,而如今人工智能又在革命GeForce。
今天我们宣布我们的下一代产品,RTX Blackwell系列。让我们来看看。
这是我们最新基于Blackwell架构的全新GeForce RTX 50系列显卡。这是一款性能野兽,搭载920亿个晶体管,4000 AI TOPS,是以前Ada的3倍。这都是我刚刚展示的画面所必需的硬件。
我们拥有380个光线追踪的太浮点运算能力,以便为我们必须计算的像素提供尽可能美丽的图像。当然,还有125个着色器的太拉浮点运算能力。实际上,除了并行着色器的泰拉浮点运算能力之外,还有一个整数单元,性能相等。因此,有两个双重着色器,一个用于浮点运算,另一个用于整数运算。来自美光的G7内存,速度为每秒1.8TB,是我们上一代产品性能的两倍。
我们现在有能力将AI工作负载与计算图形工作负载混合处理。这一代产品最令人惊讶的地方是,可编程着色器现在也能处理神经网络。因此,这个着色器能够承载这些神经网络,从而我们发明了神经纹理压缩和神经材料着色。由此产生的,是无法仅靠传统技术实现的令人惊叹的美丽图像,因为我们运用了AI技术学习纹理,学习压缩算法,最终获得卓越的结果。
好的,这就是全新的RTX Blackwell 50系列。甚至连机械设计都是一个奇迹。看看这个,它有两个风扇。整个显卡就像是一个巨大的风扇。那么问题来了,显卡在哪里?它真的这么大吗?电压调节器的设计达到了最先进水平。令人难以置信的设计。工程团队做得非常出色。
那它和之前的相比如何呢?这就是RTX 4090,价格是1599美元。这是你能做出的最好的投资之一。花1599美元,你可以把它带回家,搭配你的10000美元的PC娱乐指挥中心。不是吗?别告诉我这不是真的。它是液冷的,四处都有华丽的灯光。如果说这就是现代家庭影院完全说得通。
而现在,花1500美元到1599美元,你就可以对它进行升级,并为它注入强大的动力。现在,随着Blackwell家族的到来,RTX 5070拥有4090的性能,仅售549美元。5090的性能是4090的两倍。我们将于1月开始大规模生产,当然,产品将很快上市。
这是令人难以置信的,但我们成功地将这些巨大的高性能GPU放入了一台笔记本电脑。这是一台5070笔记本电脑。价格为1299美元的5070笔记本具有4090的性能。我想这里有一个。让我给你展示一下。你能想象吗,你拥有这个令人惊叹的显卡,Blackwell,我们将把它缩小并放入笔记本中,不利用我们的人工智能你是做不到的。原因是我们通过我们的核心生成大部分像素。因此,我们只追踪所需的像素,其他像素则由人工智能生成。结果是,能效简直是天文数字。计算机图形的未来是神经渲染,人工智能的融合。
5090显卡将能够融入到一款薄型笔记本电脑中,那款电脑厚度在14.9毫米。我们还有5080、5070 Ti和5070。那么,女士们,先生们,这就是RTX Blackwell系列。
GeForce将人工智能带入了世界,实现了人工智能的普及,而如今人工智能又回过头来彻底改变了GeForce。
让我们谈谈人工智能,接下来我们来到NVIDIA的另一处地方。这确实是NVIDIA的总部。好吧,让我们深入讨论一下人工智能行业。整个行业一直在追逐和竞相扩展人工智能,而扩展法则则是一个强大的模型,它是一个经验法则,已经在多个世代的研究者和行业中被观察和证明。扩展法则表明,你拥有的训练数据越多,模型越大,应用的计算能力越强,因此你的模型将变得更加有效或更强大。因此,扩展法则依然适用。令人惊奇的是,我们现在正在迈向新的阶段。
当然,互联网每年产生的数据量几乎是去年的两倍。我认为在未来几年内,人类将产生的数据量将超过人类自古以来所产生的总数据。因此,我们依旧在产生海量数据,而且这些数据正变得多模态。视频、图像和声音,这些数据都可以用于训练人工智能的基础知识和基本知识。但实际上,现在出现了另外两个扩展法则,这些法则也颇具直观性。第二个扩展法则是后训练扩展法则。后训练扩展法则利用强化学习、人类反馈等技术和方法。基本上,人工智能会生成和产生答案。
基于人类查询,而人类给出反馈。虽然这要复杂得多,但这个强化学习系统通过大量高质量的提示使得人工智能不断提升其技能。它可以在特定领域进行技能微调,能更好地解决数学问题,更好地进行推理,等等。因此,这本质上就像是有一个导师或教练在你学习结束后给予反馈。你会接受测试,得到反馈,不断改善自己。我们还有强化学习的人工智能反馈和合成数据生成。这些技术就类似于自我练习。你知道某一特定问题的答案,并不断尝试直到获得正确答案。
我们可能会面临一个非常复杂和困难的问题,这个问题在功能上是可验证的,并且我们理解它的答案,可能是证明一个定理,或者解决一个几何问题。这些问题会导致人工智能生成答案,并通过强化学习来学习如何自我改进。这被称为后训练(post-training)。后训练需要巨量的计算,但最终结果会产生令人惊叹的模型。我们现在有了第三个扩展法则,这个第三个扩展法则与所谓的测试时间扩展有关。测试时间扩展基本上是在使用人工智能时,人工智能能够应用不同的资源分配。现在它不再集中于改善其参数,而是专注于决定要使用多少计算来生成它想要的答案。
推理是一种思考方式,长期思考是一种思考方法,而不是简单的直接推断或一次性答案。你可能会对问题进行推理,将问题分解为多个步骤,产生多个想法并进行评估,你的人工智能系统将评估你生成的想法中哪个是最好的,或许它会逐步解决问题,依此类推。在此过程中,测试时间的扩展已经被证明极为有效。你能够观察到这一系列技术,以及随着我们见证从ChatGPT到o1再到03,到现在的Gemini Pro等令人难以置信的成就,各类扩展法则的出现。这些系统都在经历一个逐步的旅程,从预训练到后训练再到测试时间的扩展。当然,我们所需的计算量是巨大的。
我们希望,实际上,我们希望社会能够扩大计算能力,以产生越来越多的新颖和更强大的智能。智能显然是我们最宝贵的资产,它可以用于解决许多非常具有挑战性的问题。因此,规模法则正在推动对NVIDIA计算的巨大需求。这也推动了我们称之为Blackwell的这款令人惊叹的芯片的巨大需求。
让我们来看一下Blackwell。Blackwell已经全面投入生产,外观令人惊叹。首先,所有的云服务提供商现在都已经建立了系统。我们这里有来自大约15家计算机制造商的系统,正在生产200种不同的型号和配置。这些配置包括液冷、风冷、x86以及NVIDIA灰色CPU版本。
还有许多不同类型的系统,以便我们能够满足全球几乎每一个数据中心的需求。这些系统目前在大约45家工厂生产。这说明了人工智能的普及程度,以及行业如何迅速投入到这种新的计算模型中。推动这一进程的原因在于我们需要更多的计算能力。而且非常明显。
这是GB200 NVLink72系统,重达一吨半,有60万个部件。大约相当于20辆汽车,功耗120千瓦,它背后有一条“脊柱”,将所有这些GPU连接在一起,使用了两英里长的铜缆,5000根电缆,这些设备在全球45个工厂制造。我们进行生产、液冷、测试、拆解,然后将它们分部分运输到数据中心,并送往云端。我们把它们送到数据中心,因为总重达到1.5吨。然后我们在数据中心外进行重新组装和安装。这种制造过程非常疯狂。但所有这些的目标是因为扩展法则推动计算的发展,这一计算水平,Blackwell,较我们上一代的性能每瓦提升了四倍,每美元的性能提升了三倍。
这基本上意味着在一个世代中,我们将训练这些模型的成本减少了三倍。或者如果你想将模型的规模扩大三倍,成本大致相同。但重要的是,这些生成的Token正被我们所有人在使用ChatGPT或未来使用Gemini和手机时利用。几乎所有这些应用程序都会消耗这些AI Token,而这些AI Token则由这些系统生成。每一个数据中心都受到电力的限制。所以,如果Blackwell每瓦性能是我们上一代的四倍,那么可以产生的收入,数据中心生成的商业量也将增加四倍。因此,这些AI工厂系统如今确实就是工厂。
现在,所有这些的目标就是为了创造一个巨型芯片。我们所需的计算量实在是令人难以置信。这基本上就是一个巨型芯片。
我们基本上拥有的是72个Blackwell GPU或144个芯片,具备1.4 ExaFLOPS TE FP4计算能力。世界上最大的超级计算机,最快的超级计算机,最近刚刚实现了超过1个ExaFLOPS的性能,而这个整个房间的超级计算机,最近才达到了这个水平。这是1.4 exaflops的AI浮点性能,拥有14TB的内存。但更令人惊讶的是,内存带宽是1.2PB/s,这基本上就是现在整个互联网的流量。全世界的互联网流量都通过这些芯片进行处理,好吧。
我们总共有130万亿个晶体管,2592个CPU核心,还有大量的网络支持。因此,这些,我希望我能做到。这我觉得做不到。这些是Blackwell芯片。它们是我们的ConnectX网络芯片。这些是NVLink,我们正在努力让它看起来像NVLink主干,但这是不可能的,好吗?这些都是HBM内存,总共有12到14TB的HBM内存。这就是我们正在努力实现的目标,这就是奇迹。
这就是Blackwell系统的奇迹。Blackwell芯片就位于这里。它是人类历史上最大的单芯片。然而,更大的奇迹在于,这就是Grace Blackwell系统。
我们需要大量的计算能力,因为我们希望能够训练越来越大的模型。这些推理曾经只是一种推理,但在未来,人工智能将会自言自语。它将进行思考,将进行内省和处理。因此,今天,当Token以每秒20或30个的速度生成时,基本上达到了任何人能阅读的极限。然而,在未来,以及现在的GPT-01、全新的Gemini Pro和o1、o3模型,它们正在进行自我对话。我们在反思,我们在思考。所以,如你所想,Token被获取的速度极其高,因此我们需要显著提高Token生成的速度,同时还必须大幅降低成本。
服务质量可以是非凡的。客户的成本可以持续保持低廉。而且人工智能将继续扩展。这就是我们创建NVLink的根本目的和原因。在企业世界中,最重要的事情之一就是主动式人工智能(Agentic AI)。主动式人工智能基本上是测试时间扩展的一个完美例子。它是一个模型系统。其中一些用于理解和与客户互动,与用户互动。有些可能是检索信息,从存储中检索信息,像语义人工智能系统(例如RAG)那样。也许它会上网,也许会研究PDF文件。因此,它可能会使用工具,可能会使用计算器,也可能会使用生成式人工智能来生成图表等。它在不断迭代。它将你给定的问题分解成一步步来处理,并在所有这些不同模型中进行迭代。
为了让AI在未来响应客户,以前的方式是问一个问题,给出答案。未来,当问题被提出时,会有许多模型在后台运行。因此,测试时的计算量——也就是推理所需的计算量,将会激增。之所以会激增,是因为我们追求越来越好的答案。为了帮助行业构建具有自主能力的人工智能,我们的市场策略并不是直接面向企业客户,而是与软件开发人员和IT生态系统合作,整合我们的技术,以实现新的可能性,就像我们之前所做的CUDA库一样。现在,我们希望在人工智能库方面也做到这一点。正如过去的计算模型有用于计算机图形、线性代数或流体动力学的API一样,在未来,在这些加速库及CUDA加速库之上,我们将拥有人工智能库。我们已创造了三项工具来提供帮助。
在构建自主智能的生态系统方面,NVIDIA NIMS 本质上是将所有AI微服务打包在一起。它将所有这些复杂的CUDA软件,包括CUDA DNN、Cutlass、Tensor RTLM或Triton,以及模型本身打包优化,放入容器中,您可以随意携带。
因此,我们有用于视觉、语言理解、语音、动画和数字生物学的模型,同时还有一些关于物理AI的新模型即将推出。这些AI模型可以在每个云平台上运行,因为NVIDIA的GPU现在在每个云平台上都可用,也可以在每个OEM中找到,因此您可以将这些模型整合到您的软件包中,创建可以运行在cadence上的AI代理,或者它们可能是ServiceNow代理,或者SAP代理。他们可以将其部署到客户那里,并在客户希望运行软件的任何地方进行操作。
下一个层次是我们称之为NVIDIA NeMo的系统。NeMo本质上是一个数字员工入职和培训评估系统。未来,这些代理将作为数字劳动力,与您的员工一起工作,为您代劳。因此,您将这些专门代理引入公司,就像为员工入职一样,我们有不同的库来帮助这些代理进行特定语言的训练,也许您公司的词汇是独特的,业务流程不同,工作方式也不同,因此您将为他们提供示例,说明一个产品应该是什么样子的。
AI会尝试生成它,你也会给予反馈。然后你会对他们进行评估,反复进行。并且你会给他们设置限制,你会告诉他们哪些事情是禁止做的,哪些话是不能说的。我们甚至会给他们提供某些信息的访问权限。整个流程,数字员工流程被称为NeMo。在许多方面,未来每个公司的IT部门将成为AI代理的人力资源部门。今天,他们管理和维护来自IT行业的一系列软件。未来,他们将维护、培养、引导并改进大量数字代理,并将其提供给公司使用。所以,IT部门将类似于AI代理的人力资源。除此之外,我们还提供了一系列蓝图,供我们的生态系统利用。所有这一切都是完全开源的,因此你可以拿去修改这些蓝图。
我们今天还发布一件非常酷、我认为非常聪明的事情,我们正在发布一个完整的模型系列,这些模型基于Llama,NVIDIA Llama Nemo Tron语言基础模型。Llama 3.1是一个完整的现象,从Meta下载Llama 3.1的次数大约为65万次。它已经被衍生并转化为其他约6万个不同的模型,这正是几乎所有行业中的每个企业都被激活开始进行AI工作的原因。我们所做的事情是意识到Llama模型实际上可以更好地针对企业使用进行微调,因此我们利用我们的专业知识和能力对其进行了微调,并将其转化为Llama。
Llama Nemotron中有一些非常小,反应时间极快。我们称之为超大模型的Llama Nemotron Super,基本上是主流版本的模型。或者说超模,超模可以作为众多其他模型的教师模型。它可以作为奖励模型、评估者或是其他模型生成答案的裁判,决定答案的好坏,基本上是为其他模型提供反馈。它可以以不同的方式进行蒸馏,基本上是一个教师模型或知识蒸馏模型,非常强大。因此,所有这些现在都可以在线获取。这些模型令人难以置信,在聊天和指令的排行榜上都是第一。
为了应对全球AI代理所需的各种功能,我们正致力于开发出令人惊叹的模型。同时,我们与生态系统紧密合作。所有的NVIDIA AI技术都已与IT行业整合。我们有优秀的合作伙伴,并且在ServiceNow、SAP和西门子等工业AI领域开展了出色的工作。Cadence和Synopsys也在进行伟大的工作。我对与Perplexity的合作感到非常自豪。正如大家所知,他们彻底改变了搜索的方式。非常了不起的进展。Codium。全世界的每一位软件工程师都将迎来下一个巨型AI应用。
下一个巨型AI服务将是软件编程。全球有3000万软件工程师,每个人都会拥有一个软件助手来帮助他们进行编程。如果不是这样,你的生产力显然会大幅下降,编写出质量较低的代码。那么这是3000万。在全球有十亿知识工作者。显而易见,AI代理可能是下一个机器人产业,且可能成为一个万亿级的机会。接下来让我给你展示我们与合作伙伴共同创建的一些蓝图以及我们在这些AI代理方面的工作。AI代理是新的数字劳动力,正在为我们工作并与我们合作。AI代理是一组模型,能够推理任务目标,将其分解为具体任务,并检索数据或使用工具生成高质量的响应。NVIDIA的 Agentic AI 构建模块、NIM 预训练模型和 NEMO 框架使组织能够轻松开发AI代理并在任何地方部署它们。我们将对我们的代理进行入职培训和训练。
我们的公司在方法上与代理工作队伍进行协作,就像对待员工一样。人工智能代理是特定领域的任务专家。让我给你展示四个例子。对于数十亿知识工作者和学生,人工智能研究助理代理可以处理复杂的文档,比如讲座、期刊、财务报告,并生成互动播客以便轻松学习。通过将单位回归模型与扩散模型相结合,CoreDiff能够将全球天气预报的尺度从25公里缩小到2公里。开发人员,例如在NVIDIA的团队,管理软件安全人工智能代理,这些代理不断扫描软件中的漏洞,并提醒开发人员所需的行动。虚拟实验室人工智能代理帮助研究人员设计和筛选数十亿种化合物。
为了更快地找到有前景的药物候选者,NVIDIA推出了基于NVIDIA Metropolis蓝图构建的NVIDIA Analytics AI代理,包括NVIDIA Cosmos Nemetron视觉语言模型、Lama Nemetron大语言模型和Nemo检索器。Metropolis代理分析来自数十亿摄像头的内容,每天生成100,000PB的视频数据。它们支持互动搜索、摘要和自动报告,并帮助监测交通流,标记拥堵或危险。在工业设施中,它们监测流程并生成建议或改进措施。Metropolis代理集中来自数百个摄像头的数据,当发生事故时,可以重新安排工人或机器人任务。代理智能时代已然到来。
对于每个组织来说,这是一个令人兴奋的时刻。好吧,那是一个不由人生成的棒球比赛的第一投。我只是觉得你们似乎都没有被打动。好的,人工智能在云中创建,旨在为云服务而生,当然也适用于手机。很快,我们就会拥有一个持续的人工智能,它将伴随你左右。当你使用那些元宇宙眼镜时,你可以指向某个东西,观察它并询问你想要的任何信息。因此,人工智能在创建云方面是完美的。然而,我们希望能够将这项人工智能带到任何地方。我已经提到过,你可以将NVIDIA的人工智能带到任何云中,但你也可以将其集成到你的公司中。然而,我们最希望做的就是将它安装在我们的设备上。
正如你们所知,Windows 95彻底改变了计算机行业。它使得这一新的多媒体服务套件成为可能,并改变了应用程序的创建方式。Windows 95,这种计算模型,显然并不完全适合人工智能。因此,我们希望在未来,您的人工智能能够基本上成为您的AI助手。未来不仅仅有3D API、音频API和视频API,还会有生成性API。针对3D的生成性API、针对语言的生成性API、针对音频的生成性AI,等等。我们需要一个能实现这一目标的系统,同时利用云计算中的巨大投资。世界上不可能再创造出另一种编程AI模型的方法。这是不可能发生的。因此,如果我们能够找出一种解决方案让Windows PC成为世界级的AI计算机,这真的是太棒了。
结果发现答案就是Windows,就是Windows WSL2。Windows WSL2基本上是两个操作系统在一个框架内。它运行得非常完美。它是为开发人员而开发的,同时也让你能够访问底层硬件。WSL2已经针对云原生应用进行了优化,重要的是,它还对CUDA进行了优化。因此,WSL2开箱即用地完美支持CUDA。因此,我所展示的所有内容,包括NVIDIA NIMS、NVIDIA NEMO以及我们将在ai.nvidia.com上发布的蓝图,只要计算机能够承载这些,能够适应这些模型。
我们将提供许多适合不同需求的模型,无论是视觉模型、语言模型、语音模型,还是动画人类、数字人类模型,各种不同类型的模型都将完美适用于您的个人电脑。您只需下载,它们就能顺利运行。因此,我们的重点是将Windows WSL2和Windows个人电脑打造为一个一流的平台,我们将尽全力支持和维护它。对于全球的工程师和开发者来说,这都是一项了不起的成就。让我展示一些我们可以实现的功能。这里是我们为您制作的蓝图之一。生成式人工智能可以从简单的文本提示合成出令人惊叹的图像。然而,单纯用语言控制图像的构图可能会很有挑战性。通过NVIDIA NIM微服务,创作者可以使用简单的3D对象来指导AI图像生成。让我们来看一下这个概念。
艺术家可以利用这项技术来发展场景的外观。他们首先排布手工制作或通过AI生成的3D资产,然后使用图像生成工具,如Flux,创建与3D场景相符的视觉效果。可以添加或移动物体以细化构图,改变摄像机角度以捕捉完美镜头,或者使用新提示重新构思整个场景。在生成式AI和NVIDIA NIM的辅助下,艺术家能够快速实现他们的创意。
NVIDIA为您的个人电脑提供AI支持。全球数亿台运行Windows的个人电脑,我们可以为它们准备AI功能。所有我们合作的PC OEM厂商,基本上是全球领先的PC OEM厂商,都会为这一技术栈的应用做准备。因此,AI的未来就在眼前。个人电脑即将进入您的家庭。Linux表现不错。
那么,让我们谈谈物理AI。说到Linux,我们来聊聊物理AI。想象一下,您的大型语言模型,在左侧提供上下文和提示,它会一个一个地生成标记以产生输出。这基本上就是它的工作原理。令人惊讶的是,中间的这个模型相当庞大,拥有数十亿的参数。上下文长度非常大,因为你可能决定加载一个PDF。
在我的案例中,我可能在提问之前加载几个PDF。这些PDF会被转换成Token。Transformer的基本特性使得每一个Token都要与其他每一个Token找到它的关系和相关性。因此,你可能会有成千上万的Token,而计算负载也会呈平方增长。而且,它会将所有参数和输入序列通过Transformer的每一层处理,然后生成一个Token。这就是我们需要Blackwell的原因。接下来会生成下一个Token。当当前Token处理完成时,它会将当前Token放入输入序列中,然后将整个序列用于生成下一个Token,这是逐个进行的。这就是Transformer模型。这也是它被广泛使用的原因,因为它在计算上非常高效。假如,这不是PDF,而是你周围的环境呢?
如果,这个提示不是一个问题呢?如果是一项请求,让你过去拿起那箱子把它带回来,实际上它产生的不是Token,而是文本,这产生的是动作Token。我刚刚描述的这是未来机器人技术的一个非常合理的方向。这项技术即将到来,但我们需要做的是创建一个有效的世界模型。与GPT这种语言模型不同,这个世界模型必须理解世界的语言,必须理解物理动态,例如重力、摩擦和惯性;它必须理解几何和空间关系,必须理解因果关系,比如你把东西扔到地上、戳东西时的反应。同时,它还要理解物体的持久性。
因此,我们对这些理解的直观认识与如今许多模型所面临的困难密切相关。因此,我们希望创造一个世界。我们需要一个世界基础模型。今天,我们宣布一个重大消息。我们推出了NVIDIA Cosmos,一个旨在理解物理世界的基础模型。而真正理解这一点的唯一方法就是亲眼看到。让我们播放一下宣传片。
人工智能的下一个前沿是物理人工智能。模型的性能与数据的可用性直接相关。但捕获、整理和标记物理世界数据的成本是昂贵的。
NVIDIA Cosmos是一个全球基础模型开发平台,旨在推动物理人工智能的发展。它包括自回归世界基础模型、基于扩散的世界基础模型、高级分词器以及NVIDIA CUDA这一人工智能加速数据管道。Cosmos模型可以接收文本、图像或视频提示,并生成虚拟世界状态作为视频输出。Cosmos生成的内容优先考虑自动驾驶和机器人应用的独特需求,如真实环境、光照和物体持久性。开发人员使用NVIDIA Omniverse构建基于物理的、地理空间精确的场景,然后将Omniverse渲染输出到Cosmos,生成照片级真实、基于物理的合成内容。
不论是多样化的物体还是环境,天气状况、时间或边缘案例场景,开发者们使用Cosmos来生成用于强化学习的人工智能反馈,从而改善政策模型,或测试和验证模型性能,甚至跨越多传感器视角。Cosmos能够实时生成Token,为人工智能模型带来前瞻性和多元宇宙模拟的力量,生成每一个可能的未来,以帮助模型选择正确的路径。与全球开发者生态系统合作,NVIDIA正在帮助推动下一波物理人工智能的进步。
NVIDIA Cosmos,世界首个世界基础模型。它经过2000万小时的视频训练。这2000万小时的视频聚焦于物理动态事物,如动态自然、自然主题,以及人类行走、手部动作、物体操控等快速镜头移动的内容。其核心在于教会AI理解物理世界,而非生成创造性内容。基于这一物理AI,我们可以开展许多后续应用。我们可以进行合成数据生成以训练模型,也可以将其提炼并转化为有效的种子,作为机器人模型的起点。
你可以让它生成多个基于物理的、物理上可信的未来场景,基本上就像《奇异博士》。因为这个模型理解物理世界,当然,你看到了一堆生成的图像。这个模型理解物理世界。它当然也可以进行标题生成。因此,它可以对视频进行非常出色的字幕处理,这些字幕和视频可以用于训练大型语言模型和多模态大型语言模型。因此,你可以利用这项技术,用这个基础模型来训练机器人以及大型语言模型。这就是NVIDIA Cosmos。该平台有一个用于实时应用的自回归模型,具备高质量图像生成的扩散模型,基本上学习了现实世界的词汇和一个数据管道,因此如果你想将所有这些内容训练在你自己的数据上,我们为您每一个环节进行全面加速。
这是全球首个数据处理管道,它可以加速处理,同时也是我们Cosmos平台的一部分。今天我们宣布,Cosmos平台现已开放授权,并可在GitHub上获取。我们希望,这一时刻和小型、中型、大型非常快速的模型,尤其是主流模型和教师模型,能够带来新的可能性。实际上,Cosmos基础模型的开放,我们非常希望能为机器人技术和工业人工智能的世界带来变革,正如Lama 3为企业人工智能所做的那样。当您将Cosmos与Omniverse连接时,奇迹便会发生。
Omniverse是一个基于物理的系统,而不是物理上固定的,而是基于物理的。这是一个算法物理、基于原理的物理仿真系统。它是一个模拟器。当你将其与Cosmos连接时,它提供了基础和真实依据,这可以控制和调节Osmos的生成。因此,Osmos产生的结果是建立在真实基础之上的。这与将大型语言模型连接到检索增强生成系统(RAG)的理念完全相同。你想要将人工智能生成的内容建立在真实基础上。因此,这两者的结合使你拥有一个物理模拟的、多元宇宙生成器。其应用和用例是非常重要的。
相当令人兴奋。对于机器人技术和工业应用,这一点非常明确。Cosmos、Omniverse和Cosmos的结合代表了构建机器人系统所需的第三台计算机。每家机器人公司最终都必须构建三台计算机。机器人系统可以是一个工厂,机器人系统可以是一辆车,也可以是一个机器人。
你需要三台基本的计算机。
一台计算机,当然是用来训练人工智能的,我们称之为DGX计算机,用于训练AI。
另一台计算机,当你完成训练后,用于部署人工智能,我们称之为AGX,它可以在汽车、机器人、自动化移动机器人(AMR)或者任何其他设备中,这些计算机位于边缘并具有自主性。
但要连接这两者,你需要一个数字双胞胎。所有的模拟都在这里。数字双胞胎是训练好的人工智能去练习、精炼和进行合成数据生成的地方。
在增强学习AI反馈的支持下,这就是AI的数字双胞胎。这三台计算机将会进行互动工作。NVIDIA在工业领域的战略,正如我们已经讨论了一段时间的,是这个三台计算机系统。您知道的,与其说是三体问题,不如说是我们的三台计算机解决方案。这就是NVIDIA在机器人领域的定位。那么让我给您举三个例子。好的,第一个例子是我们如何将所有这些应用于工业数字化。全球有数百万家工厂,数十万座仓库,基本上构成了一个价值50万亿美元的制造业的支柱。所有这些都必须变为软件定义。
所有这一切都必须在未来实现自动化,并将与机器人技术深度融合。我们正与全球领先的仓储自动化解决方案供应商Kion以及全球最大的专业服务提供商埃森哲合作。他们在数字化制造方面有着丰厚的积累。我们正共同努力创造一些真正特别的东西,稍后我会向您展示。但我们的市场推广方式基本上与我们所有其他软件平台和技术平台相同。通过开发者和生态系统合作伙伴,我们与日俱增的生态系统伙伴正不断连接到Omniverse。原因非常明确,每个人都希望数字化工业的未来。在这50万亿美元的全球GDP中,存在着如此多的浪费和自动化机会。让我们来看一个与KION和埃森哲合作的例子。
供应链解决方案公司KION,全球领先的专业服务公司埃森哲,以及NVIDIA正在将物理AI引入价值1万亿美元的仓库和配送中心市场。管理高性能的仓库物流需要在不断变化的变量中导航,这些变量包括日常和季节性需求变化、空间限制、劳动力可用性以及多种机器人和自动化系统的整合。如今,预测物理仓库的运营关键绩效指标近乎不可能。为了应对这些挑战,KION正在采用MEGA,这是NVIDIA Omniverse的一个蓝图,用于构建工业数字双胞胎,以测试和优化机器人车队。首先,Keon的仓库管理解决方案将任务分配给数字双胞胎中的工业AI大脑。
例如,将负载从缓存位置移动到移动存储解决方案。这些机器人的“大脑”在一个物理仓库的仿真环境中,经过数字化处理,通过OpenUSD连接器将CAD、视频和图像聚合到3D中,将LiDAR转化为点云,并生成AI数据。这支机器人队伍通过感知和推理其Omniverse数字双胞胎环境,来执行任务,规划它们的下一个动作并采取行动。机器人的“大脑”可以通过传感器模拟看到结果状态,并决定下一个动作。这个循环持续进行,Mega在数字双胞胎中精确跟踪一切状态。现在,KION能够在规模上模拟无限场景,同时衡量运营关键绩效指标,如吞吐量、效率和利用率,在对实际仓库进行更改之前,KION和埃森哲正在与NVIDIA一起重塑工业自主。
事实上,你可以使用 Omniverse 和 Cosmos 来生成许多未来场景,然后由人工智能决定哪些场景对任何关键绩效指标(KPI)最为最佳,这些场景将成为编程约束,也就是将部署到真实工厂的程序。
下一个例子是自动驾驶汽车。自动驾驶革命已经到来。在经历了 Waymo 和特斯拉的成功之后,情况变得非常清晰。当然,沃尔沃等众多公司都在其中。Wabi正在开发无人驾驶卡车。Aurora,我们本周也宣布Aurora将使用NVIDIA来制造无人驾驶卡车。每年生产1亿辆汽车,世界各地有10亿辆车辆在路上,每年驾驶的总里程达到万亿英里。未来,这些车辆将会是高度自主或完全自主的。因此,这将成为一个非常庞大的产业。我预测这将可能是第一个万亿级的机器人产业。对于我们来说,仅在这些开始进入市场的汽车中,我们的业务已经达到40亿美元,今年预计将以50亿美元的规模增长。所以,这已经是一个非常重要的业务,未来将会非常庞大。
今天,我们宣布下一代汽车处理器“Thor”。这是一个机器人计算机。它处理传感器的数据,处理大量的传感器信息。许多高分辨率的摄像头、雷达、激光雷达,所有这些信息都进入这个芯片。这个芯片需要处理所有传感器的数据,将它们转化为标记,放入变换器中,并预测下一条路径。这个自动驾驶计算机现在已经全面投入生产。Thor的处理能力是我们上一代Orin的20倍,而Orin目前是自动驾驶汽车的标准。这真是令人难以置信。Thor已经全面生产。
这款机器人处理器同时也可以应用于完整的机器人,因此它可以是自主移动机器人,也可以是人类或机器人,可以作为大脑,也可以作为操控器。该处理器基本上是一个通用机器人计算机。
我非常自豪的Drive OS的第二个部分是对安全性的承诺。我很高兴地宣布Drive OS现在已成为首个经过认证的最高标准功能安全软件定义可编程人工智能计算机,达到了ASIL-D,这是汽车功能安全的最高标准,唯一且最高的标准。因此,我对此非常自豪,ASIL-D,ISO 26262。这是大约15000个工程师年工作的成果。这是非凡的工作,作为这一成果,CUDA现在成为一个功能安全的计算机。
如果你正在构建一个机器人,NVIDIA CUDA,没问题。那么,我刚才告诉过你,我将展示我们在自动驾驶汽车的背景下如何使用Omniverse和Cosmos。今天,我不会仅仅展示一堆汽车在路上行驶的视频,尽管我会展示一些。但我想展示我们如何利用汽车自动重建数字双胞胎,并利用这一能力来训练未来的AI模型。好吧,我们开始吧。
自动驾驶汽车的革命已经到来。构建自动驾驶汽车就像构建所有机器人一样,需要三台计算机。NVIDIA DGX用于训练AI模型,Omniverse用于测试驾驶和生成合成数据,以及驱动AGI。一台车载超级计算机。构建安全的自动驾驶车辆意味着要处理边缘场景,但现实世界的数据有限,因此合成数据对训练至关重要。由NVIDIA Omniverse、AI模型和Cosmos驱动的自动驾驶车辆数据工厂生成合成驾驶场景,极大地增强了训练数据的规模。首先,Omnimap融合地图和地理空间数据,以构建可驾驶的3D环境。可以从重播行驶日志或AI交通生成器生成驾驶场景的多种变化。接下来,神经重建引擎利用自动驾驶车辆传感器日志创建高保真4D传感器。
它在三维空间中重放之前的驾驶记录,并生成场景变体以增大训练数据。最后,Edify 3DS 自动搜索现有资产库或生成新资产,以创建适合模拟的场景。Omniverse 场景用于调整 Cosmos,以生成大量逼真的数据,缩小模拟与现实之间的差距,并通过文本提示生成近乎无限的驾驶场景变体。借助 Cosmos Nemotron VideoSearch,结合录制的驾驶数据,可以对大规模合成的数据集进行整理,以训练模型。NVIDIA 的 AI 数据工厂将数百次驾驶扩展为数十亿有效里程,为安全和先进的自主驾驶设定标准。
我们进行数千次驾驶,将其转化为数十亿英里。我们将会拥有大量的自主驾驶培训数据。当然,我们仍然需要真正的汽车上路。随着时间的推移,我们将不断收集数据。然而,通过这种多元宇宙的合成数据生成能力,基于物理的、真实的能力,我们可以为训练具备物理基础且准确、可信的人工智能生成数据,从而拥有大量的数据进行训练。自动驾驶行业已然崛起。这是一个令人难以置信的激动人心的时刻。我对未来几年的发展感到无比兴奋。我认为,你会看到,正如计算机图形学曾经经历的革命。
在如此惊人的速度下,您将看到自动驾驶汽车的发展在未来几年将大幅加快。
下一个环节我讲一下人形机器人。朋友们,通用机器人的ChatGPT时刻即将到来!
实际上,我所谈论的所有技术都将在未来几年内使这一切成为可能。
我们可以期待在通用机器人领域看到非常迅速且令人惊讶的突破。通用机器人之所以重要,是因为配有履带和轮子的机器人需要特殊的环境来适应。而世界上有三种机器人,它们可以制造出来并且不需要绿地(经过开发的场地),棕地(未经开发的场地)适应的特性非常完美。如果我们能够构建这些令人惊叹的机器人,我们就能够在我们创造的世界中部署它们。
这三种机器人分别是:
第一,智能机器人和智能人工智能,因为它们是信息工作者,只要能够适应我们办公室中的计算机,这就是极好的。
第二,自动驾驶汽车,因为我们已经花费了超过100年的时间来建设道路和城市。
第三,人形机器人。
如果我们能够解决这三项技术问题,这将是世界上有史以来最大的科技产业。因此,我们认为机器人时代即将来临。关键的能力在于如何训练这些机器人。在人类或机器人方面,模仿信息的获取相对困难。原因在于,针对汽车的情况,我们只需驾驶它。我们一直在开车。而对于人类或机器人,这种模仿信息,即人类演示,往往是相当费力的。因此,我们需要想出一种巧妙的方法来收集数百次、成千上万次的人类演示,并且以某种方式使用人工智能和Omniverse来合成产生数百万种合成动作。
首先,Groot Teleop使得熟练的人工操作员能够通过Apple Vision Pro进入他们机器人的数字双胞胎。这意味着操作员即使没有物理机器人,也能捕捉数据,并且可以在无风险的环境中操作机器人,消除了物理损坏或磨损的可能性。为了教会机器人执行单一任务,操作员会通过少量远程操作演示捕捉运动轨迹,然后使用Groot Mimic将这些轨迹扩展成更大的数据集。接下来,他们利用Groot Gen,基于Omniverse和Cosmos进行领域随机化和3D到现实的上采样,生成一个指数级增长的数据集。
Omniverse和Cosmos多元宇宙模拟引擎提供了一个大规模的数据集,用于训练机器人策略。一旦策略训练完成,开发者可以在IsaacSim中进行软件环中测试和验证,然后再部署到真实机器人上。通用机器人时代即将到来,由NVIDIA Isaac Groot驱动。
我们将拥有大量数据来训练机器人。NVIDIA Isaac Groot,这是我们为机器人行业提供技术要素的平台,以加速通用机器人开发。
此外,我还有一件事想向大家展示。如果没有我们大约十年前开始的这个令人难以置信的项目,一切都无法实现。在公司内部,这个项目被称为“Project DIGITS”。深度学习GPU智能训练系统,数字。在我们推出之前,我将其缩减为DGX,以便与RTX、AGX、OVX及我们公司其他“X”系列产品协调一致。DGX一号真正颠覆了人工智能的格局。我们之所以开发它,是因为我们希望让研究人员和初创公司能够拥有一台开箱即用的AI超级计算机。想象一下,过去超级计算机的构建方式。您真的需要自己建立一个设施,搭建自己的基础设施,并进行工程设计。
我们为人AI创造了一台超级计算机,专为研究人员和初创企业开发,几乎是即开即用的。我在2016年将第一台交付给一家名为OpenAI的初创公司。那时马斯克、Ilya以及许多NVIDIA工程师都在场。我们共同庆祝DGX-1的到来。显然,它彻底改变了人工智能计算的方式。但现在人工智能无处不在,它不仅仅存在于研究人员和初创公司的实验室中。正如我在开场时提到的,我们希望人工智能能融入每一个方面。这是新的计算方式,是新的软件开发方式。每一位软件工程师、每一位工程师、每一位创造性艺术家,所有今天使用计算机作为工具的人,都需要一台人工智能超级计算机。因此,我只希望DGX-1能够更小一些。
各位女士们、先生们,请想象一下,这是英伟达最新的人工智能超级计算机,目前亲切地被称为“项目数字”。如果你有一个好的名字,请联系我们。令人惊叹的是,这是一台人工智能超级计算机。它运行着整个英伟达的人工智能技术栈。所有英伟达的软件都在此运行。DGX Cloud 也基于它。它是无线的,或者说,连接到你的电脑上。如果你愿意,它甚至可以作为工作站使用。你可以像访问云超级计算机一样访问它,英伟达的人工智能也在这里运作。
这基于我们一直在研发的一款超级秘密芯片,名为GB10,这是我们制造的最小的Grace Blackwell。这就是里面的芯片。它已经进入生产阶段。这款顶级机密的芯片是我们与联发科合作开发的。
联发科技是全球领先的 SoC 公司,他们与我们合作打造了这个 CPU,这个 CPU SoC,并通过芯片到芯片的 NVLink 连接到 Blackwell GPU。这款小设备已经进入全面生产,我们预计这款计算机将在五月左右上市。这真是太令人难以置信了,我们所能做到的事情。我一直在思考,我是需要更多的手还是更多的口袋?想象一下,它就是这样的样子。谁不想要一个呢?无论你使用的是 PC,Mac,还是任何其他设备。因为,它是一个云平台,一个可以放在你桌子上的云计算平台。
如果您愿意,可以将其用作Linux工作站。所有这些功能开箱即用。它就像一台超级计算机。我们的整个超级计算栈已可用。这就是NVIDIA Project DIGITS。
好的,让我告诉您我所说的,我们正在生产三款新的Blackwell。不仅Grace Blackwell超级计算机、NVLink 72在全球范围内投入生产,我们现在还有三款新的Blackwell系统投入生产。
这是令人惊叹的一年,我感谢大家的到来,我为大家展示一条回顾过去的视频,并展望新的一年。
新年快乐,再见,谢谢!
来源:芯榜