摘要:从AI的发展进程来看,2025年注定将是AI Agent爆发之年、AI行业应用普及之年、通用人工智能AGI发展的关键之年。与之相伴的,还有AI模型的大规模商业化演进、AI智能硬件的规模上市。而如果我们能够站在更高的高度俯视这一切,我们会发现这本质上是一场覆盖了
从AI的发展进程来看,2025年注定将是AI Agent爆发之年、AI行业应用普及之年、通用人工智能AGI发展的关键之年。与之相伴的,还有AI模型的大规模商业化演进、AI智能硬件的规模上市。而如果我们能够站在更高的高度俯视这一切,我们会发现这本质上是一场覆盖了AI芯片、基础软硬件、数据与算力、大模型、Agent智能体、具身智能硬件等端到端的全生态竞争。
概括起来看,这场全生态竞争依然集中于算法、算力和数据等三个方面。从技术层面来看,深度学习、自然语言处理等关键技术经过多年的研究与优化,已经愈发成熟,AI算法注定将在2025年更加精进。这样,AI芯片多元化的存在,就让算力和数据处理能力之争成为了整个行业的焦点。每届GTC大会,主导AI芯片市场的英伟达都会集中让一批新“利器”亮相,这一届也同样如此。那么,这批新“利器”又将给AI的行业应用带来哪些变化呢?
更加灵动的数据
如果把今天AI对于数据的需求概括成几个关键词,那么这些关键词一定包含海量、多模态、离散等几个方面。一方面,AI训练需要越来越多的数据,另一方面,这些数据又可能分散于多云的环境之中,同时这些数据还包含了文本、图像、音频、视频等多种形态。尽管如此,要让AI发挥作用,应用AI的企业却还需要克服困难,近乎实时地实现数据可视能力。而这也正好是3 月 18 日NVIDIA发布的NVIDIA AI 数据平台的使命。
由于海量数据的存在,应用AI的企业需要更为快速的数据处理能力。而NVIDIA 认证的存储服务商借助 NVIDIA AI 数据平台构建基础设施,就可以通过专用 AI 查询智能体,加速AI推理工作负载。这些智能体能够助力企业应用 NVIDIA AI Enterprise 软件平台以及全新的 NVIDIA AI-Q Blueprint,近乎实时地生成数据洞察。
存储服务商可借助 NVIDIA Blackwell GPU、NVIDIA BlueField DPU、NVIDIA Spectrum-X网络以及 NVIDIA Dynamo 开源推理库,优化基础设施,为此类智能体提供强劲支持。
NVIDIA AI 数据平台带来的变化是惊人的。BlueField DPU 的性能比基于 CPU 的存储性能提升最高可达 1.6 倍,与传统以太网相比,Spectrum-X 通过采用动态路由和优化的拥塞控制,可将AI存储流量提速最高达48%。
AI数据平台存储基础设施利用 NVIDIA AI-Q Blueprint 开发,就可以进行推理并连接企业数据的代理式系统。AI-Q利用 NVIDIA NeMo Retriever 微服务,可将 NVIDIA GPU上的数据提取和检索速度提高15倍。
AI 查询智能体搭载AI-Q Blueprint,可在推理过程中连接数据,提供更准确、更贴合情景的响应。应对多模态数据,它可以快速访问海量数据,并处理包括有多个来源的结构化、半结构化和非结构化数据在内的各类数据,这些数据涵盖了文本、PDF、图像和视频等各种形式。
还有一个因素,是AI基础设施的建设者必须要考虑的,这就是越来越让人头疼的能源消耗。而在这方面,BlueField DPU在提升存储性能的同时,还将功耗降低 50%,每瓦性能提高3倍以上。
也正是因为这些变化的存在,包括DDN、Dell 、Hewlett Packard Enterprise、Hitachi Vantara、IBM、NetApp、Nutanix、Pure Storage、VAST Data、WEKA 等存储厂商都已经行动起来,与NVIDIA共同打造定制化的AI数据平台。
集成的力量
在IT技术发展的早期,算力往往是由单体计算装置提供的,但随着算力需求的增加,特别是AI崛起之后,NVIDIA CEO 黄仁勋开始频繁提及“AI工厂”这个词语,算力开始更加注重集成的作用。
简单说来,AI工厂就是为如今的AI大模型、AI应用,以及未来所有的人工智能项目提供计算力的新型“发电厂”。它所需要的算力由GPU提供,是专为AI而生的。为了满足越来越高的AI算力需求,AI 工厂甚至可能需要跨区域连接数百万GPU,为此网络传输的重要性就更加凸显出来。而在这一领域,NVIDIA在3月18日推出了 NVIDIA Spectrum-X 和 NVIDIA Quantum-X 硅光网络交换机,在大规模平台上实现了电子电路与光通信的融合。
黄仁勋对此解释说:“AI工厂是一种超大规模的新型数据中心,必须采用全新的网络基础设施才能跟上它的发展步伐。NVIDIA将硅光直接集成到交换机中,打破了超大规模和企业网络的旧有限制,为百万 GPU AI 工厂打开大门。”
NVIDIA 硅光网络交换机带来的变化是非常明显的,这些变化不仅体现在网络传输能力上,还体现在网络稳定性和网络部署速度上。由于集成了光器件,它减少了4倍的激光器数量,与传统方法相比,能源效率提高到3.5倍,信号完整性提高到63 倍,大规模组网可靠性提高到10倍,部署速度也提高到1.3 倍。
NVIDIA 硅光网络交换机将被用于 NVIDIA Spectrum-X Photonics 以太网平台和 NVIDIA Quantum-X Photonics InfiniBand 平台。
与传统以太网相比,Spectrum-X 以太网网络平台可为多租户、超大规模 AI 工厂提供卓越的性能和 1.6 倍的带宽密度。概括来看,NVIDIA Spectrum-X Photonics 交换机可以提供更高的带宽和更大的扩展能力。它具有多种配置,包括128个800 Gb/s端口或 512 个 200 Gb/s端口,总带宽可达到 100 Tb/s,以及 512个 800 Gb/s或 2,048 个 200 Gb/s端口,总吞吐量可达 400 Tb/s。
NVIDIA Quantum-X Photonics交换机也在传输速度、扩展性和散热方面有了很大提升。它提供 144 个基于 200Gb/s SerDes 的 800Gb/s InfiniBand 端口,并采用液冷设计对板载硅光器件进行高效散热。NVIDIA Quantum-X Photonics交换机AI 计算网的速度是上一代产品的2 倍,扩展性是上一代产品的 5 倍。
新一代 AI 工厂需要高效率和低维护成本,才能达到新一代工作负载所需的规模。从这个需求出发,NVIDIA“新利器”实现了一系列突破,NVIDIA AI 数据平台让数据实时洞察能力上了一个台阶,加速AI推理工作负载的同时也提高了数据可视性,NVIDIA 硅光网络交换机则助力AI工厂扩展到100 万GPU甚至更多,这些突破实实在在地扩展了当前AI 基础设施的能力边界,这些突破也将为AI行业在2025年里的新应用爆发奠定坚实的基础。
从全球范围来看,智算中心(AI工厂)的军备竞赛正酣,面对算力狂飙的最直接需求,可以想见的是,随着这些“新利器”的发布,新一轮的更新换代已经在所难免。
来源:小林科技观察