摘要:虽然黄仁勋对外宣称供货一切顺利,但目前GB200系列出货实在不容乐观。GB200 NVL72机柜设计复杂,高性能计算带来了高功耗及高散热需求。零部件厂商表示,单机柜问题已经“大致解决”,但多机柜连接问题“巨大”——机柜连接需要高达8万根铜线,散热、信号干扰等问
《科创板日报》1月19日讯 GPU新品出现散热问题、大客户订单受影响,这些天的英伟达,或许并不好过。想要保住“算力霸主”的宝座,这家巨头亟需一剂良药。
日前有消息称,英伟达将在今年3月的GTC大会上推出CPO交换机,若试产顺利,则有望8月量产,届时CPO交换机可实现115.2T的信号传输。
媒体援引供应链猜测称,“针对(CPO交换机)产能,英伟达非常着急。”
虽然黄仁勋对外宣称供货一切顺利,但目前GB200系列出货实在不容乐观。GB200 NVL72机柜设计复杂,高性能计算带来了高功耗及高散热需求。零部件厂商表示,单机柜问题已经“大致解决”,但多机柜连接问题“巨大”——机柜连接需要高达8万根铜线,散热、信号干扰等问题陆续浮现。
这不是耸人听闻的夸大其辞——散热和连接的巨大问题,已经影响到了英伟达那些顶级大客户的订单。
本周有另一报道指出,微软、亚马逊、谷歌和Meta等公司已经选择推迟Blackwell订单、或直接“弃B(Blackwell)投H(Hopper)”。一方面,GB200的功耗“前所未有得高”,每个机柜功耗高达120-132千瓦,直接将传统冷却系统推向极限。另一方面,Blackwell机柜还出现连接故障,妨碍了热量分配,又进一步加剧了热管理问题。
散热互连问题步步紧逼,英伟达拿什么解决?芯片级优化,更先进的冷却方案,还是彻底改造机柜?
这一次,光通信或许成为现阶段的最佳技术解药,英伟达将目光投向了CPO。
▌7年千倍成长空间与172% CAGR
为什么是CPO?
CPO全称为Co-Packaged Optics,中文译为光电共封装,是一种新型光电子集成技术。通过进一步缩短光信号输入和运算单位之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同时,实现了更低功耗,已成为解决未来数据运算处理中海量数据高速传输问题的重要技术途径。
在2023年2月发表的一篇研究论文中,英伟达研究人员曾直言,“现在,随着CPO面世,我们正处于新一场重大变革的边缘。在CPO架构中,光学器件将和ASIC封装在一起,以降低能耗、实现更高带宽。虽然十年前CPO就已开启系统部署,但最近的一系列研究演示以及相关产品说明都表明,未来几年,CPO将得到市场广泛采用。”
摩根士丹利在最新发布的AI供应链产业报告中指出,CPO具备AI数据中心的传输潜力,预估2023年至2030年期间,其市场规模将从800万美元激增至93亿美元——7年千倍的成长空间,年复合成长率高达172%。
此前有消息称,英伟达计划从2025年下半年推出的GB300芯片开始采用CPO,Rubin平台(Blackwell下一代平台)也将采用该技术,旨在突破目前NVLink 72互连(最多可连接72个GB200芯片)的限制,提升通信质量。
大摩的报告则指出,英伟达的Rubin平台及其NVL服务器机柜系统,在导入CPO的能见度更高,且每系统中的内含价值更高,预估2027年占全球CPO需求的75%。
▌与巨头同行
不论如何,CPO这条路,英伟达也许是选对了,从AMD、思科、IBM到英特尔,都是同行者。
例如1月6日,美国芯片大厂Marvell(美满电子)宣布,公司在定制AI加速器架构上取得突破,整合了CPO技术,大幅提升服务器性能。这种新架构能让AI服务器能力实现拓展,从目前使用铜互连的单个机架内的数十个XPU,拓展到横跨多个机架的数百个XPU。通过这一架构,超大云服务商将能开发定制XPU,实现更高的带宽密度,并在单个AI服务器内提供更长距离的XPU到XPU连接,同时具有最佳延迟和功率效率。
2024年末IBM宣布实现一项重大CPO技术突破,可以以“光速”训练AI模型,同时节省大量能源。根据IBM结论,这项CPO技术可以将标准大模型的训练时间从3个月缩短至3周;并且,与中端电气连接相比,能耗降低了5倍多,数据中心互连电缆的长度可以从1米延伸至数百米,大幅降低拓展生成式AI的成本。
除此之外,英特尔、AMD、思科等均有在近年OFC展上推出CPO原型机。
▌还有多远?
站在当下节点,CPO这根“稻草”能救得了英伟达吗?
或许还需要等待。
在1月16日的投资者会议上,作为英伟达CPO合作伙伴台积电的董事长,魏哲家表示,虽然CPO已经有初步成果(Good Result),但想要达到量产阶段仍需要1年甚至1年半以上时间。
另有媒体援引分析师表述称,CPO进度将影响英伟达Rubin系列的量产进程。供应链透露,目前“量产确实有难度,尤其是在设备部分仍相当吃紧,另外良率也有待提升”。
值得一提的是,1月16日,针对GB200服务器散热问题,黄仁勋表示,Blackwell平台散热技术相对复杂,不过Blackwell系统已开始全面量产,初期面对的挑战对比系统的复杂度,是很正常的,Blackwell系统已开始销售给全球客户。
来源:财联社