摘要:今年GTC大会,老黄的主题演讲聊了很长时间,一个人撑起了相当于一部电影哪吒2的时长,近140分钟。用黄仁勋开场自己的话说:“没有脚本,没有提词器,却有很多令人难以置信的事情要跟大家谈。”
今年GTC大会,老黄的主题演讲聊了很长时间,一个人撑起了相当于一部电影哪吒2的时长,近140分钟。用黄仁勋开场自己的话说:“没有脚本,没有提词器,却有很多令人难以置信的事情要跟大家谈。”
先说整体感受,老黄这次科普密度极大,可以说是最为卖力的一次演讲。
跟去年不同的是,黄教主这次没有上来就开大,而是在简单介绍了感知AI、生成AI、代理AI、物理AI之后,抛出了一个灵魂拷问:究竟是什么推动了每一波、每一阶段人工智能的发展?
老黄也没没卖关子,他认为,这涉及三个基本问题。
第一个是,如何解决数据问题?这很重要,因为人工智能是一种数据驱动的计算机科学方法,它需要数据来学习,需要数字体验来获取知识。
第二个问题是,如何在没有人工干预的情况下解决训练问题?人工干预从根本上来说是具有挑战性的,因为我们的时间有限,而我们希望人工智能能够以超越人类的速度学习,以超越实时的速度学习,并且能够以人类无法跟上的规模进行学习。第二个问题是,如何训练模型?
第三个问题是,如何实现规模化?如何找到一种算法,使得无论提供多少资源,都能实现规模化的增长?
可以说接下来的一些列的演讲内容,全都是从这三个问题为经纬来展开的。
就像我们需要一个AI框架来创建人工智能并加速AI框架一样,你需要物理、生物、各种不同量子物理等计算科学的库和框架。英伟达为此开发了CUDA加速库,为这些科学领域的加速框架。
所以第一个库是令人惊叹的。比如大家熟知的全球下载量第一的Python库:NumPy(去年下载量达到4亿次),英伟达早已做出了CUDA加速版:cuPy Numeric。cuPy Numeric是NumPy的零改动加速替代品,调用速度将会更快。
第二个被老黄安利的是cuLitho库,这是一个计算光刻库。在过去的四年里,英伟达已经将整个光刻计算过程整合进来。“光刻是芯片制造的第二个工厂。一个工厂用于制造晶圆,还有一个工厂用于制造晶圆的制造信息。每个拥有工厂的行业和公司未来都将有两个工厂:一个用于生产产品,一个用于数学计算,人工智能。汽车工厂、汽车人工智能工厂、智能音箱工厂、智能音箱人工智能工厂……所以cuLitho是我们的计算光刻库,得到了TSMC、三星、ASML等合作伙伴以及Synopsys、Mentor等公司的大力支持。”
黄仁勋补充道,光刻领域已经到了临界点,再过五年,每一片掩膜、每一次光刻都将通过Nvidia CUDA进行处理。信号处理是我们非常擅长的领域。一旦我们做到这一点,我们就可以在其基础上添加AI,也就是我们所说的AI RAN(无线接入网络)。下一代无线网络将深度嵌入人工智能。
黄仁勋甚至对这项技术期望很大:
为什么我们会被信息论的极限所限制?因为我们只能获取有限的信息频谱。但如果加入AI,进行数值或数学优化,情况就不一样了。
几乎每个行业都使用这种技术,无论是规划航班座位、库存和客户、工人和工厂、司机和乘客等,我们总是面临多种约束条件、大量变量,而你需要优化的是时间、利润、服务质量、资源使用等等。Nvidia在我们的供应链管理中也使用了这种技术。
Co-Opt是一个令人惊叹的库。它将原本需要数小时的工作缩短到几秒钟。这非常重要,因为它使我们能够探索更大的空间。宣布将开源Co-Opt。
此外,还有很多加速计算的CUDA库。比如还有用于张量收缩的Co-Equivariance和cuTENSOR,用于基因测序和基因分析的Parabricks,以及全球领先的医学成像库Monai,用于高分辨率局部天气预测的Earth2,以及用于对CAE(计算机辅助工程)的cuDSS等。
值得注意的是,用于量子计算的cuQuantum库,黄仁勋透露,英伟达正在与生态系统中的几乎每个人合作,帮助他们研究量子架构、量子算法,或者构建经典加速的量子异构架构。
CUDA这个事实上的AI技术栈,已经通过这些加速库被整合到生态系统的不同部分,包括软件和基础设施,这也造就了今天大模型领域难以绕开英伟达的深层原因。
老黄将CUDA库比喻成上个IT时代的SQL——
“服务提供商(CSP)喜欢我们的前沿技术,也喜欢我们完整的解决方案,因为正如我之前解释的,加速计算不仅仅是芯片,甚至不仅仅是芯片和库,而是芯片、编程模型以及在其之上的一整套软件。整个堆栈极其复杂,每一个层级、每一个库都相当于SQL。SQL,正如你们所知,是存储计算领域的一场大革命,由IBM推动。SQL只是一个库,想象一下我刚刚给你们展示的那些库,而在人工智能领域,还有更多。所以这个堆栈是复杂的。”
最早采用人工智能的行业之一是自动驾驶汽车。从老黄看到AlexNet的那一刻,就已经决定英伟达全力以赴地开发自动驾驶汽车。“所以,我们已经研究自动驾驶汽车超过十年了。”
黄仁勋甚至把跟自动驾驶汽车具体的合作内容说了个遍。
英伟达开发的技术被几乎所有自动驾驶汽车公司使用。它可能用于数据中心,例如,特斯拉在数据中心使用了大量的Nvidia GPU;也可能用于汽车本身。Waymo和Wave在数据中心和汽车中都使用了Nvidia的计算机。有时也可能只用于汽车,虽然这种情况比较少见,或者他们使用了我们所有的软件。
此外,英伟达与汽车行业的合作方式取决于后者的需求。“我们构建了三种计算机:训练计算机、仿真计算机和自动驾驶汽车计算机,以及所有在其之上的软件栈、模型和算法,就像我在前面提到的其他行业一样。”
黄仁勋讲到这里,丢出了一个合作的消息——通用汽车(GM)选择与Nvidia合作,共同打造他们未来的自动驾驶汽车车队。
此外,老黄还重点花了一些时间介绍了自己非常自豪但外界却很少关注的领域发布:汽车安全系统“Halo”。安全需要从芯片到系统的技术,包括系统软件、算法、方法论,从多样性到确保多样性、监控和透明性、可解释性,所有这些不同的理念都必须深深融入到系统和软件开发的每一个环节中。
“我们是世界上第一家对每一行代码进行安全评估的公司,700万行代码经过第三方评估,以确保其设计能够保证多样性、透明性和可解释性。我们还申请了超过1000项专利。”
老黄还在这一part展示了如何训练一个靠谱的自动驾驶大模型的过程,感兴趣的朋友不妨一看:
Nvidia正在通过Omniverse和Cosmos加速自动驾驶汽车(AV)的AI开发。Cosmos的预测和推理能力支持端到端可训练的AI优先AV系统,采用新的开发方法,如模型蒸馏、闭环训练和合成数据生成。
首先是模型蒸馏,将策略模型适应为Cosmos的策略模型。将驾驶知识从一个较慢但更智能的教师模型转移到一个更小、更快的学生模型,以便在汽车中进行推理。教师的策略模型展示了最佳轨迹,随后学生模型通过迭代学习,直到其表现几乎与教师模型相当。
蒸馏过程启动了策略模型,但复杂场景需要进一步调整。闭环训练能够对策略模型进行微调。
日志数据被转化为3D场景,用于在基于物理的仿真中进行驾驶闭环,使用Omniverse神经重建。这些场景的变体被创建出来,以测试模型的轨迹生成能力。Cosmos行为评估器随后可以对生成的驾驶行为进行评分,以衡量模型性能。新生成的场景及其评估创建了一个大型数据集,用于闭环训练,帮助AV更稳健地应对复杂场景。
最后,3D合成数据生成增强了AV对多样化环境的适应性。从日志数据中,Omniverse通过融合地图和图像构建详细的4D驾驶环境,并生成现实世界的数字孪生,包括分割以指导Cosmos对每个像素进行分类。Cosmos随后通过生成准确且多样化的场景来扩展训练数据,弥合仿真与现实之间的差距。Omniverse和Cosmos使AV能够学习、适应并智能驾驶,推动更安全的出行。
关于数据中心,黄仁勋点赞了Hadoop的工作。“Hadoop是一个革命性的想法,它使超大规模数据中心能够使用现成的计算机解决巨大的问题。”
但紧接着老黄就道出了问题——我们试图解决的问题如此复杂,如果按照那种方式扩展,成本将过高,能源消耗也会过大,深度学习将永远不会发生。因此,我们必须先向上扩展。
上一代系统架构被称为HGX,它彻底改变了我们所知的计算,彻底改变了人工智能。
黄仁勋展示道,这是2个Blackwell GPU在一个Blackwell封装中,两个,下面有8个这样的封装,它们连接到我们称之为NVLink 8的系统,然后连接到一个CPU机架,上面有两个CPU,通过PCI Express连接,然后通过InfiniBand连接多个这样的系统,形成一台人工智能超级计算机。
这就是过去的方式,这就是我们开始的方式。
这就是我们在向外扩展之前能够向上扩展的极限,但我们还想进一步向上扩展。
黄仁勋表示,此前宣布的Ranger将这个系统进一步向上扩展了4倍,所以我们有了NVLink 32,但这个系统太大了,所以我们必须做一些相当了不起的事情,重新设计NVLink的工作方式以及向上扩展的方式。
因此,我们首先要做的是,需要把嵌入在这个系统主板上的NVLink交换机与NVLIink系统分离出来。分离出来的NVLink交换机被放在机箱的中心。通过将18个这样的交换机,分布在9个不同的机架中。而计算部分则放在另一处,通过液体冷却的方式,我们可以将所有这些计算节点压缩到一个机架中。这是整个行业的重大变化。
展示中的NVLink交换机是世界上性能最高的交换机,它使得每个GPU都能够以全带宽同时与其他每个GPU通信。
据黄仁勋透露,这样一台机架,包含60万个零部件,这相当于20辆车的零部件,全部集成到一台超级计算机中。而这正是英伟达的实现的一个目标——
集成的NVLink转变为分离的NVLink,从风冷转变为液冷,从每台计算机大约6万个组件转变为每个机架60万个组件。120千瓦,完全液冷。
所有这些难题,英伟达全部搞定了。
那为什么要花如此大的力气做这样的机器?
黄仁勋揭示了现下AI大模型在实际应用中,厂商们所面临的二维困境:一方面希望大模型尽可能多的生成token(收入按token计费),另一方面,又希望尽可能更快地完成,因为如果你回答问题的时间过长,客户就不会再回来了。因此,你的令牌速率很重要。
而事实上,解决生产环境下最好的答案是:你应该拥有大量的浮点运算能力、大量的带宽、大量的内存,还有最好的架构、最高的能效。你必须有一个编程模型,让你能够在所有这些极其复杂的设备上运行软件,以便实现这一切。
这里,老黄展示一个部署满血版Deepseek R1的例子。
你可以使用张量并行:你可以将模型的一层在多个GPU上运行;你可以将流水线的一部分切片,称之为流水线并行,并将其放在多个GPU上;你可以将不同的专家放在不同的GPU上,我们称之为专家并行。流水线并行、张量并行和专家并行的组合,其组合数量是惊人的。
你有时也会针对极低的延迟进行优化。有时你会尝试针对吞吐量进行优化。因此,你需要进行一些飞行中的批处理,许多不同的批处理和工作聚合技术。因此,这些人工智能工厂的操作系统极其复杂。
那么,有一个观察结果,拥有像NvLink72这样的同构架构是一件非常棒的事情,因为每一个GPU都能做到我刚才描述的所有事情。
一方面,模型厂商希望自家的token速率尽可能快,这样就能制造出真正聪明的人工智能,而如果有了聪明的人工智能,人们会为其支付更多的钱。但另一方面,人工智能越聪明,你在从volume上就越难盈利。
在以Llama3和DeepSeek R1模型对比的演示中,后者输出了20倍的token数量和150倍的计算性能。
黄仁勋还提出了一个重要的观点,未来每一个数据中心都将是功率受限的,你的收入也将是功率受限的。你可以根据你拥有的功率来计算你的收入。基于这一点,你必须确保你拥有尽可能高效的计算架构。
所以,企业老板们实质上是要在最大吞吐量和人工智能的质量、最聪明的人工智能、最多的产出之间找到帕累托最优。
黄仁勋指出,在等功率的情况下,Blackwell远远优于Hopper。
“这不是等芯片,也不是等晶体管,而是等功率,这是终极的摩尔定律。我们能在一个数据中心中获得的功耗是有限的,所以在等功率的情况下,Blackwell是Hopper的25倍,这太不可思议了,这就是有趣的部分。”
图中右上方,可以看到有成千上万的配置点,黄仁勋解释道,这代表着我们可以将数据中心配置成不同的方式。我们可以并行化和分割工作,并以许多不同的方式分配工作,而我们找到了最优化的答案,这就是帕累托前沿。每一种配置,因为颜色的不同,都显示了不同的配置,这就是为什么这张图片非常清楚地表明,你想要一个尽可能可编程的架构,尽可能同质化、可互换,因为工作负载在整个前沿的变化是如此剧烈。
气氛已经铺垫足了,黄仁勋终于开始带货了!相信大家最为期待的还是新款GPU和芯片的发布。
“今年下半年,我们将轻松过渡到升级版。所以,我们有Blackwell Ultra Nv Link 72,它的浮点运算性能是原来的1.5倍,增加了新的注意力指令,内存增加了一半。所有这些内存都适用于像Kv缓存这样的东西,网络带宽增加了两倍。既然我们有了相同的架构,我们就可以顺利地过渡到这个新版本,这被称为Blackwell Ultra。”
至于为什么又不是现货?
黄仁勋解释道,建造AI工厂和AI基础设施,这需要多年的规划。“这可不是买笔记本电脑,这不是随意的支出,这是我们必须提前规划的支出。因此,我们必须提前规划土地和电力供应,准备好我们的资本支出,组建工程团队,并提前两三年进行布局,这也是我提前两三年向你们展示路线图的原因。”
所以,我们计划在未来几年内推出多个产品。明年推出的产品是以一位天文学家的名字命名的,她的孙辈们今天也来到了现场,她的名字是Vera·Rubin(薇拉·鲁宾),她发现了暗物质。
Vera·Rubin,因为它的CPU性能是上一代Grace的两倍,内存更多,带宽更大,而它却只是一个小小的50瓦CPU,这真的很令人惊叹。
Rubin主打一个全新。采用了全新的14✖️GB300、全新的网络NV Link144、全新的内存HBM 4e。用老黄的话说,基本上除了机箱,其他一切都是全新的。
不过Rubin的发布,得明年下半年推出。
正如往期大会,黄仁勋总是喜欢在演讲最后用机器人压轴。这一次老黄用GROOT N1来结束了这场演讲,憨态可掬的步伐和表情,也赚足了现场的掌声。
Isaac GR00T N1,号称全球首个开源的、完全可定制的人形机器人基础模型。它采用双系统架构,灵感来自人类思考模式,包括快速思考的动作模型(System 1)和慢速思考的决策模型(System 2)。
据悉,GR00T N1 现已上市,是英伟达将预训练并发布给全球机器人开发人员的一系列完全可定制模型中的第一个。Groot N1 是英伟达 Project Groot 的演进版本,该公司在去年的 GTC 大会上推出了该项目。Project Groot 面向工业用例,但 Groot N1 将重点扩大到各种不同外形的人形机器人。
黄仁勋最后表示:“通用机器人时代已经到来。借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框架,世界各地的机器人开发人员将开拓 AI 时代的下一个前沿。”
最后,天亮了,小编看了下英伟达的市值:
只能说舆情向好,但市值还是小跌了。
来源:51CTO