摘要:人工智能服务器是当前IT业最大市场增长点,各方也都在围绕这一产品进行快速迭代。这里面除了大家最关注的人工智能芯片和HBM之外,其实还有很多可以做文章的地方。近期,英伟达就在携手合作伙伴解决了供电和液冷等问题。
人工智能服务器是当前IT业最大市场增长点,各方也都在围绕这一产品进行快速迭代。这里面除了大家最关注的人工智能芯片和HBM之外,其实还有很多可以做文章的地方。近期,英伟达就在携手合作伙伴解决了供电和液冷等问题。
英伟达正在研发一种名为“800V 高压直流(HVDC)架构”的新型电力基础设施,以满足功率需求达1兆瓦及以上的服务器机架的用电需求,并计划在2027年部署该系统。英伟达表示,随着服务器机架的功率开始超过200千瓦,现有的54V直流配电系统已接近其承载极限。随着人工智能芯片性能不断提升,耗电量持续增加,这些现有系统将难以满足实际需求,数据中心需要构建新的解决方案,以避免电路不堪重负。
例如,英伟达称其GB200 NVL72或GB300 NVL72大约需要八个电源机架。若采用54V直流配电系统,这些电源机架将占用64个机架单元(U)的空间,这超出了普通服务器机架的容纳范围。此外,英伟达还指出,采用54V直流系统输送1兆瓦电力需要一根重达200公斤的铜母线。这意味着,许多公司正在竞相建设的千兆瓦级人工智能数据中心,每个站点将需要50万吨铜,这几乎相当于美国2024年的铜总产量的一半。
因此,英伟达提议不再使用直接安装在服务器机柜上的54V直流系统,而是采用800V高压直流系统,该系统将在靠近站点13.8千伏交流电源的地方接入。除了能释放服务器机架内的空间外,这一方案还将简化供电方式,提高数据中心内的电力传输效率。此外,它还能避免当前系统中多次进行的交流转直流和直流转直流转换,从而降低系统复杂性。
800V高压直流系统还能在相同功率负载下降低系统电流,在无需升级导体的情况下,有望使总输电功率提升至原来的1.85倍。“采用较低电流后,更细的导体就能承载相同的负载,这将使铜的需求量减少45%。”该公司表示,“此外,直流系统消除了交流系统特有的低效问题,如集肤效应和无功功率损耗,进一步提高了效率。”
据《电子时报》(Digitimes)报道,这家人工智能巨头正在与英飞凌(Infineon)、德州仪器(Texas Instruments)和纳微半导体(Navitas)合作开发这一系统。此外,预计它们将采用氮化镓(GaN)和碳化硅(SiC)等宽禁带半导体来实现这些强大人工智能系统所需的高功率密度。随着数据中心开始突破1千兆瓦甚至更高的容量,800V高压直流系统是数据中心必须解决的一项技术挑战,以实现电力高效利用。这一解决方案应有助于减少电力浪费,进而降低运营成本。
(Image credit: Nvidia)
除了供电问题外,据报道,英伟达Blackwell人工智能服务器机架的供应商们也正在攻克一系列技术难题,使得GB200人工智能机架的生产得以加速。
据两家供应商消息,在2024年底曾出现技术问题,生产进度一度受到影响。一名来自英伟达合作制造商的工程师表示,问题主要源于大量处理器同步运行时的复杂性,导致软件错误和芯片间连接异常。
据英国《金融时报》消息,包括富士康、英业达、戴尔和纬创在内的供应商取得了“一系列突破”,从而得以启动发货工作。
由于去年年底出现的技术问题扰乱了生产,GB200的发货一度延迟。《金融时报》写道,英伟达的中国台湾合作伙伴在2025年中国台北国际电脑展上宣布,GB200机架的发货已于2025年第一季度末启动,并表示“目前产能正在快速提升”。
《金融时报》报道称,供应链合作伙伴花了“数月时间”来解决GB200机架面临的其他挑战,其中包括过热问题以及液冷系统的泄漏问题。据工程师们反映,其他问题还包括“因同步如此大量处理器所带来的复杂性而产生的软件漏洞和芯片间连接问题”。
一位分析师向《金融时报》表示,“英伟达没有给供应链留出足够的时间来做好充分准备”,并称GB200的库存风险将在今年下半年缓解。
报道指出,随着英伟达准备推出GB300(预计在第三季度推出),该公司在GB300的设计上做出了一些妥协。《金融时报》称,英伟达放弃了Cordelia芯片板布局,转而采用在GB200中使用的较旧的Bianca设计。报道提到,两家供应商反馈存在安装问题;不过,这一改变意味着无法对系统中的单个GPU进行更换。
这与5月初的一则报道相符。当时的报道称,英伟达推迟了原计划用于Blackwell Ultra GB300的SOCAMM内存技术的引入,而当时有消息称,Cordelia到Bianca的布局变更正是导致推迟的原因。
根据上述早期报道以及《金融时报》的最新消息,英伟达仍计划在下一代Rubin芯片中采用Cordelia设计。
NVIDIA CEO黄仁勋此前表示,GB300预计将在2025年第三季度推出。外界分析认为,Cordelia主板不仅能带来更高的利润,还能简化客户维护流程,但其技术复杂性仍需进一步优化。
来源:卡夫卡科技观察