摘要:刚刚,黄仁勋宣布推出全新旗舰芯片Blackwell Ultra GPU,并剧透基于下一代Rubin GPU架构的Vera Rubin超级芯片、Vera Rubin NVL144机架和Rubin Ultra NVL576机架,全场爆发出热烈的掌声!
2小时激情演讲!黄仁勋剧透四年芯片路线图,Blackwell一年大卖超300万块。
作者 | 智东西编辑部
刚刚,黄仁勋宣布推出全新旗舰芯片Blackwell Ultra GPU,并剧透基于下一代Rubin GPU架构的Vera Rubin超级芯片、Vera Rubin NVL144机架和Rubin Ultra NVL576机架,全场爆发出热烈的掌声!
芯东西美国圣何塞3月18日现场报道,顶着热烈的加州阳光,一年一度的“AI春晚”英伟达GTC大会盛大开幕。今日上午,英伟达创始人兼CEO黄仁勋穿着闪亮的皮衣,进行了一场激情澎湃的主题演讲,一连亮出四代全新Blackwell Ultra、Rubin、Rubin Ultra、Feynman旗舰芯片,公布四年三代GPU架构路线图,还多次提到中国大模型DeepSeek。
英伟达将每年升级全栈AI系统、发布一条新产品线,2026年、2027年切换到采用Rubin 8S HBM4、Rubin Ultra 16S HBM4e和Vera CPU,2028年推出采用下一代HBM的Feynman(费曼)平台,NVSwitch、Spectrum、CX网卡都将同步迭代,从而为千兆瓦AI工厂铺平道路。
整场演讲信息量爆棚,覆盖加速计算、深度推理模型、AI智能体、物理AI、机器人技术、自动驾驶等在内的AI下一个风口,新发布涉及十大重点:
1、Vera Rubin、Rubin Ultra芯片:两代旗舰芯片HBM内存升级,GPU“乐高拼装术”日臻成熟,提前公布Vera Rubin NVL144机架、Rubin Ultra NVL576机架性能,最高FP4推理性能达到15EFLOPS,基于Rubin的AI工厂性能达到Hopper的900倍。
2、Blackwell Ultra芯片:全球首个288GB HBM3e GPU登场,发布GB300 NVL72机架、HGX B300 NVL16机架系统方案,一个机架能像单个大型GPU一样运行。
3、数据中心AI超算:推出Blackwell Ultra DGX SuperPOD,采用全新DGX GB300和DGX B300系统,助力企业构建开箱即用的AI超级计算机,发布AI托管服务NVIDIA Instant AI Factory、AI数据中心运营和编排软件NVIDIA Mission Control。
4、AI推理、AI智能体软件:AI推理软件Dynamo在运行DeepSeek-R1模型时,可将每个GPU生成的token数量提高超过30倍;全新Llama Nemotron推理模型系列中,Super 49B版本吞吐量达到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍;宣布向全球企业提供构建AI智能体的核心模块;存储龙头们构建企业级AI数据平台。
5、个人AI超算:推出全球最小AI超算DGX Spark、高性能桌面级AI超算DGX Station,方便开发者本地微调或推理深度思考模型。
6、Blackwell进展:正在全面生产,销售量是上一代Hopper的3倍。
7、工作站和服务器GPU:上新RTX Pro Blackwell数据中心GPU、桌面级GPU、笔记本电脑GPU。
8、光电一体化封装网络交换机:号称“世界上最先进的网络解决方案”,可将AI工厂扩展到数百万块GPU。
9、物理AI/机器人:开源Isaac GR00T N1人形机器人基础模型,与迪士尼研究院、谷歌DeepMind将合作开发开源物理引擎Newton。
10、电信AI和自动驾驶:与通用汽车一起为工厂和汽车构建GM AI,构建综合全栈自动驾驶安全系统NVIDIA Halos。
值得一提的是,英伟达宣布Blackwell GPU创下满血版DeepSeek-R1推理性能的世界纪录。
单个配备8块Blackwell GPU的NVIDIA DGX系统,可实现每位用户每秒超过250个token,或每秒超过30000个token的最大吞吐量。
通过硬件和软件的结合,英伟达自今年1月以来将DeepSeek-R1 671B模型的吞吐量提高了约36倍,相当于每个token的成本改善了约32倍。
今年GTC人气火爆到史无前例,万元起步的门票悉数售罄,超过25000名观众齐聚现场,几乎整座圣何塞都染上了“英伟达绿”,从街巷、集市、高楼、餐厅、巴士到三轮车,到处都是醒目的英伟达GTC标识。
还有一个彩蛋,在黄仁勋主题演讲开始前,SAP中心大屏幕上播放的5人对话暖场视频中,画面最右边的正是前英特尔CEO帕特·基辛格,他的身份已经变成了Gloo董事长。
迪士尼机器人Blue作为黄仁勋主题演讲的惊喜嘉宾压轴出场,摇头晃脑向黄仁勋撒娇卖萌,还听从黄仁勋的指令,乖乖站到了他的旁边。
此外,本届GTC大会特设China AI Day - 云与互联网线上中文专场,涵盖大模型、数据科学、搜推广等领域的前沿进展,演讲企业包括字节跳动、火山引擎、阿里云、百度、蚂蚁集团、京东、美团、快手、百川智能、赖耶科技、Votee AI。
芯东西带你直击英伟达GTC大会现场,一文看尽英伟达重磅发布和黄仁勋主题演讲干货。
4月1-2日,智东西联合主办的2025中国生成式AI大会(北京站)将举行。35+位嘉宾/企业已确认,将围绕DeepSeek、大模型与推理模型、具身智能、AI智能体与GenAI应用带来分享和讨论。更多嘉宾陆续揭晓。欢迎报名~
01 .
下一代Vera Rubin超级芯片明年登场!
三代AI工厂性能暴涨900倍
上午9点59分,黄仁勋闪现圣何塞SAP中心舞台,朝不同方向的观众席连放5个冲天炮,然后慢慢走下舞台。
在参会观众翘首等待11分钟后,黄仁勋小步慢跑再度登场,笑容满面地向全场观众打招呼,还带观众云参观了下英伟达总部。
黄仁勋晒出了密密麻麻的GTC25企业logo,说几乎每个行业都有代表企业出现在GTC现场。
至于为什么要提前展示路线图?黄仁勋说,构建AI工厂和AI基础设施需要数年的规划,不像买笔记本电脑,所以必须提前两三年制定土地、电力、资本支出的计划。
他公布了英伟达继Hopper、Blackwell之后的下一代GPU架构——Rubin。这一命名来自于发现暗物质的女性科学先驱薇拉·鲁宾(Vera Rubin)。
首先展示的是两个机架级解决方案,Vera Rubin NVL144和Rubin Ultra NVL576。
Vera Rubin由Rubin GPU和Vera CPU组成。Vera CPU拥有88个定制Arm核心、176个线程。Rubin由两块掩模尺寸的GPU组成,拥有288GB HBM4内存,FP4峰值推理能力可达50PFLOPS。
Vera Rubin NVL144的FP4推理算力可达到3.6EFLOPS,FP8训练算力可达到1.2EFLOPS,是今天新发布的GB300 NVL72的3.3倍,将于2026年下半年推出。
Rubin Ultra系统由Rubin Ultra GPU和Vera CPU组成。Rubin Ultra由4块掩模尺寸的GPU组成,拥有1TB HBM4e内存,FP4峰值推理能力可达100PFLOPS。
Rubin Ultra NVL576的FP4峰值推理算力高达15EFLOPS,FP8训练算力达到5EFLOPS,足足是GB300 NVL72的14倍,将于2027年下半年推出。
相较Hopper,基于Blackwell的AI工厂性能提高多达68倍,基于Rubin的AI工厂性能提高多达900倍。
02 .
新旗舰Blackwell Ultra:全球首个288GB HBM3e GPU,NVL72机架下半年问世
在万众期待中,英伟达新一代数据中心旗舰GPU Blackwell Ultra(GB300)正式登场。
Blackwell Ultra为AI推理时代而设计,是全球首个288GB HBM3e GPU,像拼乐高一样通过先进封装技术将2块掩膜尺寸的GPU拼装在一起,可实现多达1.5倍的FP4推理性能,最高15PFLOPS。
该GPU增强了训练和测试时推理扩展,可轻松有效地进行预训练、后训练以及深度思考(推理)模型的AI推理,构建于Blackwell架构基础之上,包括GB300 NVL72机架级解决方案和HGX B300 NVL16系统。
下一代模型可能包含数万亿参数,可以使用张量并行基于工作负载进行任务分配。如取模型切片在多块GPU上运行、将Pipeline放在多块GPU上、将不同专家模型放在不同GPU上,这就是MoE模型。
流水线并行、张量并行、专家并行的结合,可以取决于模型、工作量和环境,然后改变计算机配置的方式,以便获得最大吞吐量,同时对低延迟、吞吐量进行优化。
黄仁勋称,NVL72的优势就在于每块GPU都可以完成上述任务,NVLink可将所有GPU变成单个大型GPU。
GB300 NVL72连接了72块Blackwell Ultra GPU和36块Grace CPU,采用机架式设计,密集FP4推理算力达到1.1EFLOPS,FP8训练算力达到0.36EFLOPS,是GB200 NVL72的1.5倍;总计有2倍的注意力指令集、20TB HBM内存、40TB快内存、14.4TB/s CX8。
升级的GB300 NVL72设计,提高了能效和可服务性,通过降低成本和能耗来推进AI推理民主化,相比Hopper将AI工厂的收入机会提高50倍。
GB300 NVL72预计将在英伟达端到端全托管AI平台DGX Cloud上提供。
与Hopper相比,HGX B300 NVL16在大语言模型上的推理速度加快至11倍,计算能力增加到7倍,内存增至4倍。
Blackwell Ultra系统与Spectrum-X以太网、Quantum-X800 InfiniBand平台无缝集成,通过ConnectX-8 SuperNIC,每块GPU有800Gb/s的数据吞吐量,提供了一流的远程直接内存访问功能,使AI工厂和云数据中心可在没有瓶颈的情况下处理AI推理模型。
英伟达合作伙伴预计将从2025年下半年起提供基于Blackwell Ultra的产品。
亚马逊云科技、谷歌云、微软Azure、甲骨文OCI、CoreWeave、Crusoe、Lambda、Nebius、Nscale、Yotta、YTL等云服务提供商将首批提供Blackwell Ultra驱动的实例。
03 .
数据中心AI超算:全新DGX SuperPOD,将AI工厂性能提升至70倍
英伟达DGX SuperPOD与DGX GB300系统采用GB300 NVL72机架设计,提供交钥匙AI工厂。
英伟达将NVIDIA DGX SuperPOD称作“全球最先进的企业级AI基础设施”,旨在为实时推理和训练提供强大的计算能力。
企业可采用全新DGX GB300和DGX B300系统,集成英伟达网络,获得开箱即用的DGX SuperPOD AI超级计算机。
DGX SuperPOD提供FP4精度和更快的AI推理速度,可扩展到数万块Grace Blackwell Ultra超级芯片,预计将在今年晚些时候从合作伙伴处可获得。
DGX GB300系统采用英伟达Grace Blackwell Ultra超级芯片(包含36块Grace CPU和72块Blackwell GPU),以及一个为先进推理模型上的实时智能体响应而设计的机架级液冷架构。
与采用Hopper系统和38TB快内存构建的AI工厂相比,DGX GB300系统可提供70倍的AI性能。
每个DGX GB300系统配备72个ConnectX-8 SuperNIC,加速网络速度高达800Gb/s,是上一代性能的2倍。
18个BlueField-3 DPU搭配Quantum-X800 InfiniBand或Spectrum-X以太网,可加速大规模AI数据中心的性能、能效和安全。
与上一代Hopper相比,DGX B300系统可提供11倍的AI推理性能和4倍的AI训练加速。
每个系统提供2.3TB HBM3e内存,包含由8个英伟达ConnectX-8 SuperNIC和2个BlueField-3 DPU组成的先进网络。
英伟达还推出了一项以DGX SuperPOD为特色的托管服务NVIDIA Instant AI Factory,计划在今年晚些时候开始上市,并发布适用于Blackwell架构DGX系统的AI数据中心运营和编排软件NVIDIA Mission Control。
Equinix将率先在其位于全球45个市场的预配置液冷或风冷AI-ready数据中心提供新DGX GB300和DGX B300系统。
04 .
发布AI推理软件、新推理模型,
DeepSeek-R1猛刷存在感
企业正竞相建设可扩展的AI工厂,以满足AI推理和推理时扩展的处理需求。英伟达推出开源的AI推理软件NVIDIA Dynamo,其本质上就是AI工厂的操作系统。
Dynamo(发电机)的命名来源是,发电机是开启上一次工业革命的第一台工具,Dynamo也是现在一切开始的地方。
NVIDIA Dynamo是一个用于大规模服务推理模型的AI推理软件,旨在为部署推理模型的AI工厂实现token收入最大化。
它能够跨数千个GPU编排和加速推理通信,并使用分区分服务来分离不同GPU上大语言模型的处理和生成阶段,使每个阶段可根据特定需求独立优化,并确保GPU资源的最大利用率。
为了提高推理性能,英伟达采用Blackwell NVL8设计,之后又引入新的精度,用更少的资源量化模型。
未来每个数据中心都会受到电力限制,数据中心的收入与之挂钩,因此英伟达用NVL72进行扩展,打造更节能的数据中心。
在GPU数量相同的情况下,Dynamo可将Hopper平台上运行Llama模型的AI工厂性能和收益翻倍。在由GB200 NVL72机架组成的大型集群上运行DeepSeek-R1模型时,Dynamo的智能推理优化也可将每个GPU生成的token数量提高30倍以上。
基于Dynamo,相比Hopper,Blackwell性能提升25倍,可以基于均匀可互换的可编程架构。在推理模型中,Blackwell性能是Hopper的40倍。
黄仁勋说:“这就是我以前为什么说,当Blackwell批量发货时,你不要把Hopper送人。”他调侃自己是“首席收入官”。
“买得越多,省得越多,赚得越多。”黄仁勋的经典带货名言又来了,这次他特别强调AI工厂收入的提高,100MW AI工厂会包含45000颗GPU Die、1400个机架、每秒生成3亿个token。
相比Hopper,Blackwell能实现40倍的性能提升,对应产生40倍的token收入。
为了提升推理性能,NVIDIA Dynamo加入了一些功能,使其能够提高吞吐量的同时降低成本。
它可以根据不断变化的请求数量和类型,动态添加、移除、重新分配GPU,并精确定位大型集群中的特定GPU,从而更大限度地减少响应计算和路由查询。
它还可以将推理数据卸载到成本更低的显存和存储设备上,并在需要时快速检索这些数据,最大程度地降低推理成本。
Dynamo可将推理系统在处理过往请求时于显存中保存的知识(称为KV缓存),映射到潜在的数千个GPU中。然后,它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上,从而避免昂贵的重新计算,并释放GPU来响应新的请求。
该软件完全开源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署AI模型的方法。
大模型公司Cohere计划使用NVIDIA Dynamo为其Command系列模型中的AI智能体功能提供支持。
英伟达还基于Llama开发了全新Llama Nemotron推理模型系列,提供Nano、Super、Ultra版本。其中Super 49B版本在生成速度和AI智能体任务的准确性两个维度超过DeepSeek-R1,吞吐量达到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍。
这些模型现已开源,企业可以通过NIM下载至本地运行。
英伟达正为全球企业提供构建AI智能体的核心模块,推动企业级AI技术的普及与创新。英伟达的Llama Nemotron可以在任何地方运行,包括DGX Spark、DGX Station以及OEM制造的服务器上,甚至可以将其集成到任何AI智能体框架中。
AT&T正在开发公司专用的的AI智能体系统。未来,英伟达不仅会雇佣ASIC设计师,还会与Cadence合作,引入数字ASIC设计师来优化芯片设计。Cadence正在构建他们的AI智能体框架,英伟达的模型、NIM和库已经深度集成到他们的技术中。Capital One、德勤、纳斯达克、SAP、ServiceNow、Accenture、Amdocs等企业也将英伟达技术深度融入AI框架中。
黄仁勋还宣布存储龙头们构建企业级AI数据平台。原本企业的存储系统是基于召回的,而如今的系统应该基于语义。基于语义的存储系统时刻在嵌入原始数据,用户使用数据时只需使用自然语言进行交互,便能找到需要的数据。
05 .
全球最小AI超算、桌面AI超算齐发,
把数据中心性能搬到手边
NVIDIA DGX Spark和DGX Station是英伟达打造的个人AI计算机,让开发者能在桌面上对大模型进行原型、微调、推理。
全球最小AI超级计算机DGX Spark前身是Project DIGITS,采用GB10 Grace Blackwell超级芯片、128GB统一系统内存、ConnectX-7 SmartNIC,AI算力可达1000 AI TOPS。
DGX Spark可以被用来微调或推理最新的AI推理模型,比如英伟达今天新发布的Cosmos推理世界基础模型和GR00T N1机器人基础模型。该AI超算的预订今日起开放。
DGX Station是一款基于Blackwell Ultra的新型高性能桌面级超级计算机,为桌面带来了数据中心级别的性能,用于AI开发,今年晚些时候可从英伟达制造合作伙伴处获得。
这是第一个采用英伟达GB300 Grace Blackwell Ultra桌面超级芯片构建的台式机系统,拥有784GB超大统一系统内存,还有支持800Gb/s网络连接的ConnectX-8 SuperNIC,AI性能达到20PFLOPS。
06 .
Blackwell卖得超好!DeepSeek-R1
回答质量高,需要更多算力
Blackwell系统构建于英伟达强大的开发工具生态系统、CUDA-X库、600多万开发者和4000多个应用的基础上,可在数千块GPU上扩展性能,非常适合运行新的Llama Nemotron推理模型、AI-Q蓝图、AI企业级软件平台。
黄仁勋说CUDA-X是GTC的全部意义所在。他展示了一张自己最喜欢的幻灯片,包含了英伟达构建的关于物理、生物、医学的AI框架,包括加速计算库cuPyNumeric、计算光刻库cuLitho,软件平台cuOPT、医学成像库Monaiearth-2、加速量子计算的cuQuantum、稀疏直接求解器库cuDSS、开发者框架WARP等。
“我们已经达到加速计算的临界点,CUDA让这一切成为可能。”黄仁勋谈道。
据他分享,英伟达正在全面生产Blackwell,有十几家企业已生产和部署Blackwell系统。
2025年,英伟达已经向美国前四大云服务提供商售出超过360万块Blackwell GPU,相比去年销售Hopper的数量高出3倍,去年Hopper销售量为130万块。
这些进展得益于英伟达对计算架构的根本性变革。
3年前的英伟达GPU尚未将NVLink独立出来,导致单一系统体积和重量惊人,这代HGX系统8卡版本重达70磅,黄仁勋称自己根本不可能将其举起展示,而机架整体需要搭载4个8卡版本。这极大影响了数据中心的能效和可扩展性。
于是,英伟达决定将NVLink与GPU分离,以单独的NVLink组件实现GPU间的全速通信。
分离后的系统采用了液冷技术,这意味着系统的体积可以被进一步压缩,机柜中能装下更多的系统。
原本的系统零件约有6万个,而升级后的系统零件达到了60万个,相当于20辆汽车的零件数量。这一个机柜的算力就达到了1EFLOPS,由5000根线缆连接,线缆总长达2英里。
英伟达大费周章将二者分离的原因,是为了实现极致的垂直扩展(Scale-Up),也就是扩展单一机柜的算力。在目前的制造工艺限制下,根本不可能造出单体包含130万亿晶体管的系统。
而这一极致的解决方案,最终是为了解决一个终极的计算问题——推理。
黄仁勋认为,推理远没有想象中的那么简单,需要做好成本与性能的完美平衡,这一平衡直接影响了服务质量和盈利能力。
为了阐释推理中的诸多考量因素,黄仁勋使用了一个坐标系。x轴代表每秒生成的token数量,Y轴代表系统的总吞吐量。
推理模型已经证明,生成的token数量越多,模型的表现就越好。
现场,黄仁勋演示了DeepSeek-R1和Llama 3.3 70B的对比。Llama这类非推理类模型虽然token用量更少,但回答质量较低,而耗费20倍token、150倍算力的推理模型,能对复杂问题给出高质量的准确回答。
但如果生成的速度不理想,也会影响用户使用服务的意愿,因此每秒生成的token数量需要尽可能高。数据中心还要尽可能地为更多用户提供服务,这样才能最大化收益。
曲线右上方就是理想中的解决方案,能在保证服务质量、服务规模的前提下,最大化收益。
为了实现效益最大化,需要储备尽可能多的高速算力和配套系统。
07 .
上新数据中心、桌面、笔记本电脑GPU:
RTX Pro Blackwell系列
英伟达今天还发布了RTX Pro Blackwell系列工作站和服务器GPU,提供加速计算、AI推理、光线追踪和神经网络渲染技术,使其数据中心GPU从桌面到移动工作站提供动力。
英伟达RTX PRO Blackwell GPU特色包括:提供1.5倍吞吐量和新神经网络着色器的NVIDIA SM、性能翻倍的第四代RT核心、可提供4000 AI TOPS算力的第五代张量核心、更大更快的GDDR7内存、第九代NVIDIA NVENC、第六代NVIDIA NVENC、带宽翻倍的第五代PCIe、DisplayPort 2.1、多实例GPU。
工作站和服务器GPU内存高达96GB,笔记本电脑GPU内存达到24GB,使应用程序可更快运行,并使用更大更复杂的数据集。
RTX PRO 6000数据中心和桌面GPU可将单GPU安全分区成最多4个实例,5000系列桌面GPU可将单GPU安全分区成两个实例。
新品包括:
1、数据中心GPU:RTX PRO 6000 Blackwell服务器版,采用被动冷却热设计,每台服务器最多可配置8块GPU,可与NVIDIA vGPU软件结合为虚拟化环境中的AI工作负载提供动力,预计将在今年下半年推出。
2、桌面GPU:RTX PRO 6000 Blackwell工作站版, RTX PRO 6000 Blackwell Max-Q工作站版, 将于4月起通过分销合作伙伴提供,5月起由制造商提供;RTX PRO 5000 Blackwell,RTX PRO 4500 Blackwell,RTX PRO 4000 Blackwell,将从夏季通过分销伙伴提供。
3、笔记本电脑GPU:RTX PRO 5000 Blackwell,RTX PRO 4000 Blackwell,RTX PRO 3000 Blackwell,RTX PRO 2000 Blackwell,RTX PRO 1000 Blackwell,RTX PRO 500 Blackwell,将从今年晚些时候由戴尔、惠普、联想、雷蛇开始提供。
新笔记本电脑GPU还支持最新NVIDIA Blackwell Max-Q技术,可智能且持续地优化笔记本电脑性能和能效。
08 .
推出光电一体化封装网络交换机,
将AI工厂扩展至数百万GPU
随着AI工厂发展到前所未有的规模,AI网络基础设施也必须升级。英伟达将其光交换机称作“世界上最先进的网络解决方案”。
英伟达今日发布全新共封装(CPO)的NVIDIA Spectrum-X和Quantum-X硅光网络交换机,可将AI工厂扩展到数百万个GPU。
与传统方法相比,英伟达光交换机集成了光学创新,将激光器减少至1/4,每端口1.6Tb/s,可提供3.5倍的能效、63倍的信号完整性、10倍的大规模网络弹性、1.3倍快的部署时间。
黄仁勋谈道,英伟达希望将以太网的水平提升至InfiniBand级别,这意味着更极致的拥塞控制、延迟控制。
NVIDIA硅光网络交换机会被用于NVIDIA Spectrum-X Photonics以太网平台和Quantum-X Photonics InfiniBand平台。
相较传统以太网,Spectrum-X以太网网络平台可为多租户、超大规模AI工厂提供1.6倍的带宽密度。
如图,Spectrum-X光交换机将在2026年推出,有多种配置,包括128个800Gb/s端口或512个200Gb/s端口,总带宽可达到100Tb/s,以及512个800Gb/s或2048个200Gb/s端口,总吞吐量可达400Tb/s。
Quantum-X光交换机预计将在今年晚些时候上市,提供144个基于200Gb/s SerDes的800Gb/s InfiniBand端口,并采用液冷设计对板载硅光器件进行高效散热。其AI计算网的速度是上一代产品的2倍,扩展性是上一代产品的5倍。
具体来看,Quantum-X光交换机的带宽达到115.2Tb/s。
搭载交换机管理模块,并使用了液冷技术。
该系统搭载Quantum-X800 ASIC芯片,并配备6个光学子组件和18个硅光芯片引擎。
Quantum-X800 ASIC的总吞吐量达到28.8Tb/s,采用台积电4nm工艺,拥有1070亿颗晶体管,网络内自带3.6 TFLOPS FP8 SHARP算力。
324个光学连接器串联起这一系统,总计有36个激光输入和288个数据链接,内置光纤管理功能。
其中,光子组件是可拆卸的,每个组件拥有3个硅光芯片引擎,总吞吐量为4.8Tb/s。
每个硅光芯片引擎拥有200GB/s的微光调制器,总吞吐量为1.6Tb/s,实现3.5倍节能。
硅光芯片引擎采用台积电6nm制程工艺,拥有2.2亿颗晶体管,1000个集成的光学器件。
这一系统还拥有多平面光学数据连接器,拥有1152个单模光纤。
外部光源拥有8个集成激光系统,具备自动温度检测和波长、能耗稳定功能。
上述部件的总和,便是下图这一拥有4460亿颗晶体管的庞大系统。
台积电的硅光子解决方案结合了其在先进芯片制造和台积电SoIC 3D芯片堆叠方面的优势,帮助英伟达释放AI国产扩展到百万GPU甚至更多。
黄仁勋做了一个换算,这一系统的应用能在单个数据中心中节省数十个Megawatts的能源,而60Megawatts就相当于10台Rubin Ultra机架的能耗。
09 .
物理AI与机器人:发人形机器人基础模型,
英伟达迪士尼DeepMind联手
物理AI正在改变价值50万亿美元的行业,在英伟达三台计算机上构建数十亿个机器人。英伟达将机器人视作下一个数万亿美元产业。
物理AI也有三大Scaling Laws。
黄仁勋宣布推出开源、预训练、可定制的Isaac GR00T N1人形机器人基础模型,旨在加快人形机器人的开发,已提前获得该模型的公司包括波士顿动力、Agility Robotics、Mentee Robotics、Neura Robotics等。
英伟达与迪士尼研究院、谷歌DeepMind将合作开发开源物理引擎Newton。
黄仁勋谈道,物理AI和机器人技术发展得很快,但也面临着和大模型同样的挑战,就是如何获得数据、如何扩展让机器人更聪明。
基于此,英伟达为Omniverse添加了两项技术。
一是扩展AI的生成能力和理解物理世界的生成模型,也就是Cosmos。Cosmos可以生成无限数量的环境数据。
二是,机器人的可验证回报是物理定律,因此需要设计用于模拟真实世界中的物理现象的物理引擎。这一物理引擎需要被设计用于训练触觉反馈、精细运动技能和执行器控制。也就是上面迪士尼机器人Blue已经搭载的物理引擎。
在机器人开发中,英伟达Omniverse可以生成大量不同的合成数据,开发人员根据不同领域聚合现实世界的传感器和演示数据,将原始捕获的数据乘以大量照片级的多样化数据,然后使用Isaac Lab增强数据集对机器人策略进行后训练,让其通过模型放行为学习新技能。
实地测试中,开发人员使用Omniverse动态模拟真实环境进行测试。现实世界的操作需要多个机器人协同工作,Mega和Omniverse允许开发人员大规模测试。
10 .
电信与汽车:为6G开发AI原生无线网络,
发布全栈自动驾驶安全系统
黄仁勋认为,未来的AI不会限于云端,而将会无处不在。
要将加速计算带到真实世界的每一个场景之中,不仅需要芯片和CUDA这样的库,还需要为每个场景建立对应的软件栈——如企业、工厂、机器人、GPU云等应用场景。
英伟达认为AI将对电信行业产生深远影响,6G网络进入倒计时,下一个时代将是AI原生无线网络,包括用于无线电信号处理的AI/ML、神经网络模型。这将释放频谱效率的巨大收益。
现场,黄仁勋宣布英伟达与Cisco、T-Mobile等几家志同道合的电信龙头合作,建立由AI驱动的电信系统,为6G开发AI原生无线网络,以NVIDIA AI Aerial平台为基础,确保下一代无线网络将是AI原生的。
其目标是研究和开发一个AI原生、高光谱效率、开放和差异化的6G无线平台,在频谱效率、电源效率、运营效率、安全性、成本效益、创收机会方面设置新基准,可用于全球部署。
随后黄仁勋将话题转向自动驾驶。
他回忆道,当初AlexNet的出现,让英伟达决定开始研究自动驾驶技术,一转眼10年已逝,如今英伟达的产品几乎出现在所有自动驾驶汽车之中。
黄仁勋宣布,通用汽车将会成为英伟达最新的合作伙伴,在生产、设计、模拟和车机中应用英伟达的AI技术。英伟达和通用汽车将协力为工厂和汽车构建GM AI。
自动驾驶的时代已经到来,但安全也是其中重要的一环。
对此,英伟达发布综合全栈自动驾驶安全系统NVIDIA Halos。英伟达自动驾驶技术的全栈代码将交由第三方进行安全检验,确保这些技术能充分反映现实世界的多元性。
英伟达的自动驾驶模型采用蒸馏技术开发、表现较好但速度较慢的模型会逐渐将知识传递给表现尚未完善、但速度较快的模型。此外,有大量数据被转换成了3D场景,可用于虚拟环境中的模拟。
推理模型也被引入了自动驾驶领域。
如今,在英伟达Omniverse和Cosmos中,自动驾驶模型能从变化中学习并自我改进。Cosmos能根据图像建立现实世界的4D模型(包含图像分割),并通过计算机模拟同一场景的不同状况,比如雨天、雪天、夜晚等等,这将进一步提升自动驾驶模型的能力。
例如,在下方案例中,用户输入了一则指令,要求模型生成冬季城市环境中,一辆汽车打开雨刮器,左转时的画面。在经过推理后,模型生成的画面极为逼真,能作为高质量数据加到自动驾驶模型训练过程中。
11 .
下一波浪潮是物理AI,
数据中心建设支出将达1万亿美元
黄仁勋回顾说,在开始研究GeForce 25年后,GeForce已经在全球范围内售罄。GeForce将支持AI的CUDA带向世界,现在AI彻底改变了计算机图形学。
AI在10年间已经取得了巨大进步。2023年的重大突破是AI智能体(AI Agents),AI智能体可以对如何回答或者解决问题进行推理、在任务中进行规划、理解多模态信息、从网站中的视频中学习等,然后通过这些学到的学习来执行任务。
下一波浪潮是物理AI,可以理解摩擦、惯性和因果关系,使机器人技术成为可能,开辟出新的市场机会。
关于AI智能体和物理AI有几个核心问题:一是如何解决数据问题,AI需要数据驱动,需要数据来学习、获得知识;二是如何解决训练问题,AI需要以超人的速度、以人类无法达到的规模进行学习;三是如何扩展实现Scaling Law,如何找到一种算法让AI更聪明。
这大大加快了目前所需的计算量。背后有两个原因:
首先从AI可以做什么开始,AI可以逐步分解问题、以不同方式解决同样问题、为答案进行一致性检查等。
当AI基于思维链进行一步步推理、进行不同的路径规划时,其不是生成一个token或一个单词,而是生成一个表示推理步骤的单词序列,因此生成的token数量会更多,甚至增加100倍以上。
三大AI Scaling Laws(预训练、后训练、测试时)对计算提出指数级需求。随着计算成本增加,需要全栈创新来降低成本/tokens。
黄仁勋解释说,模型更复杂,生成的token多10倍,为了保证模型的响应性和交互性,因此计算速度必须提高10倍。
其次是关于如何教AI。教会AI如何推理的两个基本问题是数据从哪里来、如何不受限制学习,答案就是强化学习。
人类历史上已经明确了二次方程的解法、数独、勾股定理等诸多知识,基于数百个这样的案例可以生成数百万个例子让AI去解决,然后使用强化学习来奖励。这个过程中,AI需要处理数百万个不同问题、进行数百次尝试,而每一次尝试都会生成数万个token,这些都加到一起,就会达到数万亿个token。
这两件事带来了巨大的计算挑战。
AI变得更聪明,使得训练这些模型所需的计算量大幅增长。黄仁勋预计2030年末,数据中心建设支出将达到1万亿美元。
这背后的第一个动态变化是,通用计算已经用完,业界需要新的计算方式,世界将经历手动编码软件到机器学习软件的平台转变。
第二个变化是,人们越来越认识到软件的未来需要大量投资。这是因为计算机已经成为token的生成器,基于生成式的计算构建AI工厂,然后在AI工厂里生成tokens并重组为音乐、文字、视频、化学品等各种类型的信息。
目前,拐点正在全球数据中心的建设中发生。
12 .
结语:AI行业风向标火爆开场,
黄仁勋或惊喜现身夜市
作为AI行业风向标,英伟达GTC 2025大会将举办超过1000场会议、汇聚2000名演讲嘉宾和近400家参展商,涵盖大语言模型、物理AI、云计算、科学发现、气候研究、医疗健康、网络安全、人形机器人、自动驾驶等主题,并将举办首届量子日,将汇集全球量子计算界和业内重要人物,与黄仁勋共同探讨量子计算的现状和未来。
现场参会者能体验各种精心策划的活动,包括数十场覆盖各个行业的演示、实战培训、自动驾驶汽车展览和试驾,还有集结20家当地供应商和手艺人制作的小吃和商品的GTC夜市,盲猜一波酷爱逛夜市的黄仁勋会惊喜现身。
智东西/芯东西将持续放送更多GTC 2025现场报道,敬请关注。
来源:芯东西