摘要:每个大冷板采用一进一出的液冷设计,形成一对快接头。通过manifold(分流器),多个回路被汇集成一个整体回路,再连接至机箱外壳。因此,在系统内部,每个computetr ay理论上进出各有两对快接头。
1、在GB200的液冷设计中,一个compute tray的冷板配置是怎样的?
每个大冷板采用一进一出的液冷设计,形成一对快接头。通过manifold(分流器),多个回路被汇集成一个整体回路,再连接至机箱外壳。因此,在系统内部,每个computetr ay理论上进出各有两对快接头。
2、冷板与manifold之间的连接是否都使用快接头?如果是,具体配置如何?
每根管子在液冷板侧和manifold侧各有一个快接头。这意味着每根管子包含两对快接头,其中液冷区和热区各有两对。
3、为什么部分拆机图中显示液冷板出来的一端没有看到快接头?
液冷板上的快接头通常为母端设计,其主要结构隐藏在扣环内,因此从外观上看不明显。而manifold上的公端则较为凸出,因此更容易被观察到。
4、GB200中的一个compute tray总共需要多少对快接头?
每个compute tray包含两个大冷板,每块大冷板需要两对(进、出)快接头,共计四对。此外,trav通过manifold向外连接时,还需额外增加两对。因此,一个GB200compute tray总计需要六对快接头。对于NVL72系统,18个compute tray共计108对快接头,加上9个switch tray,每个switch tray有一进一出两对,总计126对快接头。
5、GB200系统中的快接头价格区间是多少?
GB200系统中的快接头单颗价格早期约为100美元,目前市场价格已降至约70至80美元之间。以整台系统计算,公母端需成对购买。GB200方案中使用的快接头供应商由谁决定?快接头供应商通常由设计方决定。在NVIDIA的reference design中,主要采用CPC和S taubli提供的产品,这块是英伟达定的。
6、GB300相较于GB200在液冷设计上的主要变化是什么?
快接头在GB300方案变化较大。GB300采用了独立液冷板设计,每个芯片配备单独的一进一出液冷板,而非大面积冷板覆盖方式。因此,NVL72系统中,一个computetray 包含6个芯片,共12对快接头。如果加上manifold接口则总数为14对。(14*18=252对)GB300所使用的新型快接头在价格方面有何变化?NV UQD03相较于GB200中的型号,其尺寸缩小很多,单颗价格下降至40至50美元之间。
7、在NV UQD03快接头初期量产阶段有哪些主要供应商参与?
初期量产阶段参与者包括AVC旗下富士达、CoolerMaster以及立敏达。其中Cooler Master占据主导地位,其样品已率先投入生产,而其他厂商尚未明确供货时间表,因此份额分布暂不明显。
8、Cooler Master在GB300项目中的进展是否较快?其原因是什么?
主要原因并非其技术效果优于其他厂商,而是其与NVIDIA的合作关系较为紧密,竟这块是NVIDIA负责设计核心方案,并将设计交由供应商进行具体开发和生产。
9、在GB200项目中,主要参与方有哪些?各自的角色是什么?
GB200项目的早期开发由NV与几家云服务提供商(CSP)共同主导,随后逐步引入了其他供应链厂商。其中CPC是该领域的重要领导者之一。此外,包括Staubli和Parker等公司也逐渐加入UQD系列的开发工作。NVIDIA在美国地区与CPC和Staubli合作时间较长,这两家公司也是快接头领域的大型制造企业,在GB200项目中承担了大规模生产任务。
10、为什么GB300未沿用GB200的供应链体系,而选择Cooler Master作为主要供应商?
可能是因为国外厂商比较严谨保守,而GB300做了比较大的变化,那些供应商可能没有第一时间去做推广。由于UQD03尺寸缩小至原来的三分之一,其工艺复杂性显著提高,包括组装公差、密封性能以及断绝水路功能等方面都面临更高难度。同时,小型化设计对组装精度要求更高,单独组件组装变得更加复杂。此外,为确保可靠性,需要进行更多验证工作,例如加速测试、插拔测试及材质可靠性测试。这些测试通常需要运行数百小时甚至上千小时。目前,据悉Cooler Master已完成第一阶段样品验证,但整体可靠性测试仍在持续进行。GB300目前要参与厂商各自进展如何?在GB300项目中,目前已知参与厂商包括CoolerMaster、AVC以及立敏达(Readore)。其中,Cooler Master为首批进入验证阶段的厂商,其第一阶段样品已通过初步验证,可以量产出样;AVC和立敏达则处于第一阶段验证过程中。据了解,目前整体冷板及快接头模块均以Cooler Master为主导。
11、Cooler master是否有国内Tier 2级别供应链支持?其快接头方案来源如何?
目前尚无法确认其快接头方案是自主研不太清楚,其部分工厂位于中国大陆,但具体合作伙伴信息保密程度较高。发还是采购自国内其他企业。
12、为什么选择将UQD03设计改为更小尺寸?这是否会降低漏液风险?
UQD03设计改为更小尺寸主要是为了适应板卡插槽数量增加导致面积受限的问题。然而,小型化并不一定降低漏液风险,相反,由于需要在有限空间内实现相同密封效果,小型化可能增加漏液概率。此外,小型化还提升了组装复杂性,但通过每个冷板独立分离后的整体组装过程反而有所简化。
13、GB300与GB200相比,液冷有哪些显著变化?
GB300的主要变化集中在内部冷板(cold plate)的设计上,而其他组件如manifold、C DU以及cartridge等均沿用GB200的原有设计,无需额外调整。另外,目前switchtray大部分采用气冷方案,仅主芯片使用水冷。未来可能会全面转向水冷,包括前端transceiver连接器也将采用水冷设计。这种转变将导致制造工艺复杂度增加,并推高成本。当前transceiver主要依靠气冷散热。如果未来切换为水冷,每个光纤接头都需要单独配备一个液冷板,相当于每个光模块加液冷,这些液冷模块可能不会采用快接头,而是通过铜管焊接实现连接。其整体制造成本将显著提高。现阶段相关方案仍处于设计阶段,尚未明确最终形式
来源:全产业链研究