摘要:为支持大规模AI工作负载,功率达50至100兆瓦的AI工厂迅速兴起,液冷技术已成为全球几乎所有数据中心的核心需求之一。这些设施在控温与空间利用方面本就面临挑战,如今还需应对功耗达2800瓦及以上的下一代AI超级芯片的散热问题。
(本文编译自electronicdesign)
为支持大规模AI工作负载,功率达50至100兆瓦的AI工厂迅速兴起,液冷技术已成为全球几乎所有数据中心的核心需求之一。这些设施在控温与空间利用方面本就面临挑战,如今还需应对功耗达2800瓦及以上的下一代AI超级芯片的散热问题。
毫无疑问,应对这些新型AI驱动芯片散热的唯一方法便是采用液冷技术。这也正是该市场规模预计将从2024年的41亿美元飙升至2031年194亿美元的原因所在。
无论是芯片制造商、服务器生产商、原始设备制造商(OEM)、超大规模数据中心运营商,还是数据中心管理者,他们都清楚自身对液冷技术的需求。然而,对于不同液冷方案的具体细节,以及如何在实现收益最大化的同时降低成本、提升可持续性,他们往往缺乏清晰认知。
本文将通过梳理围绕液冷技术的11个最常见误解,深入了解液冷技术的真实面貌。
01 浸没式液冷与芯片直冷技术几乎是一回事
这是最常见的误解之一。但事实并非如此。所有液冷技术都可归为浸没式液冷或芯片直冷两大类(见图1)。芯片直冷技术常被称为“冷板”冷却,因其会将冷板直接置于图形处理器(GPU)或中央处理器(CPU)的顶部。而浸没式液冷技术则是将服务器、芯片及其他设备浸没在大型、厚重的流体容器中。
图1:液冷技术分为浸没式液冷与芯片直冷两大类,且每种方案均有单相或双相两种形式。
02 液冷技术会在服务器内使用水
这种说法仅在使用单相芯片直冷技术时成立,除此之外并不完全准确。冷板中会使用水或水-乙二醇混合液作为冷却液。在该技术中,水始终保持液态,其散热能力取决于水的流量。待冷却芯片的功耗越高,所需的水流量就越大。这就要求投入更多成本用于配置更大尺寸的管道、储液罐和连接器,同时还需配备高功耗的水泵,以确保水能够在系统中持续循环。
与之不同的是,无论是浸没式液冷还是双相芯片直冷,其系统内部都不会使用水来带走中央处理器(CPU)或图形处理器(GPU)产生的热量(这两种技术会连接到设施的水循环回路,以将蒸汽冷凝回液态,或对冷却液进行降温)。单相浸没式液冷使用油性流体,双相浸没式液冷则采用绝缘冷却液(介电流体)。但无论采用哪种流体,服务器及IT设备均需浸没在装满该流体的大型厚重容器中。
双相芯片直冷技术会将小型冷板直接置于GPU顶部。冷板内部装有传热流体,这些流体会吸收元器件产生的热量并被限制在冷板内部。与浸没式液冷不同,这种传热流体绝不会与芯片或服务器的其他元器件发生接触(如图2所示)。
图2:左图展示的是浸没式液冷技术,服务器被放置在装满流体的大型容器中;右图则呈现了双相芯片直冷技术的冷板,这些冷板直接安装在图形处理器(GPU)的顶部。
03 若想提升AI性能,就必须放弃可持续性。
事实绝非如此,只要选择具备可持续性的液冷解决方案即可。要确保所构建的系统符合可持续发展要求,需先明确以下几个问题:
该液冷技术是否消耗水?这一问题至关重要,因为一座采用单相芯片直冷技术的100兆瓦数据中心,每天的耗水量可能高达约110万加仑(约416万升)。目前全球水资源已十分稀缺,因此最佳方案是采用无水冷却系统。
系统的能源使用效率(PUE)如何?需确保PUE值尽可能低,以实现高效运行。
是否需要重建数据中心,还是可通过改造现有数据中心来适配下一代AI GPU?
该液冷技术配套的基础设施投资成本是多少?若需配备大型厚重容器、水泵及管道,不仅会产生高额费用,还会占用宝贵的空间。
长期维护成本有多高?冷却液是否需要定期更换?
与冷却液接触的设备使用寿命有多长?
04 使用介电流体对环境有害
过去,全氟烷基物质和多氟烷基物质(PFAS,即“永久性化学物质”)曾被认为具有危害性,但如今部分PFAS产品已被认定为安全。不过,在使用任何PFAS类物质时,最佳做法是将其置于密闭系统(如闭环系统)中运行。
若盛放这类流体的容器在维护过程中需要开启,就总会有部分流体挥发到大气中。因此,应向液冷技术制造商咨询以下问题:其所用冷却液是否需要定期更换?是否会与外界空气接触?更重要的是,他们未来向“零PFAS”方案转型的计划是怎样的?
05 GPU产生的热量无法回收利用
AI GPU产生的热量完全可以用于为附近的房间或建筑供暖,尤其是在各类设施布局密集的城市环境中。像双相芯片直冷这样的液冷解决方案,在设计上不仅能让设施回收利用这些热量,还可将其转化为可二次利用的能源。
06 冷板式液冷技术会产生热点
长期以来,冷板内部的池沸腾一直被视为液冷技术的理想目标,但此前始终无人能找到方法防止沸腾产生的气泡引发热点问题。为解决这一难题,有公司研发了一种鳍片与吸液芯结合的结构——在鳍片之间采用类似海绵的多孔材料制作吸液芯(如图3所示)。
图3:通过在冷板内部采用吸液芯与鳍片结构,可消除热点问题。
冷却液会渗入海绵状的吸液芯内部,气泡则产生于吸液芯、冷却液与鳍片之间。这种设计能防止气泡在(芯片的)受热表面形成,从而实现均匀冷却。
07 仅靠风冷技术便足够应对需求
传统风冷技术如今已基本被认为是过时的方案,原因在于其驱动风扇和冷却机需要消耗大量能源,且这些设备本身还需占用宝贵的空间。从风冷转向液冷的优势十分显著。而且随着设施内计算功耗每增加一瓦,这些优势带来的效益还会不断叠加。
例如,仅采用风冷的数据中心,每1瓦的计算功耗就需要搭配1瓦的冷却功耗。这意味着有50%的电力仅用于冷却系统!与之形成对比的是,若采用先进的液冷技术,每1瓦的冷却功耗可支持10瓦的计算功耗。
08 漏水不会造成任何损坏
超大规模数据中心运营商对风险极为敏感,而AI服务器的单台价值已接近35万美元,使用水作为冷却液本身就存在风险。漏水不仅可能导致生产大幅延误,甚至可能使生产完全停滞。
就在去年,有媒体曾报道,英伟达(NVIDIA)的下一代GB200超级芯片原本即将出货,但随后发现AI服务器机柜内部的液冷系统存在漏水问题,最终导致产品上市延迟。除漏水外,使用水还可能引发腐蚀与侵蚀问题。因此,由于水体中易滋生微生物,还需对冷却水进行持续过滤和水处理。
09
液冷技术的应用会受未来芯片发热上限(芯片最大功率)的限制
部分液冷方案确实存在局限性,随着未来芯片工作功率不断提升,这些方案将无法随之扩展应用。正因如此,采用具备“前瞻性”的冷却方式就显得至关重要,例如双相冷板中采用的池沸腾技术。冷板内部储存着一定量的传热流体:当芯片产生热量时,流体开始沸腾,热量随之转化为蒸汽。
无论芯片功率如何变化,流体始终保持在恒定的沸腾温度,从而确保散热性能稳定可控。因此,这种冷却方式具备可扩展性,能够为未来功率越来越高的芯片提供散热支持。这就好比在炉灶上烧一锅水:即便将火力调至原来的3倍,水也始终会保持在沸点温度,无需更换新设备或改造现有基础设施。
10 液冷技术需要大量维护工作
维护成本取决于所采用的液冷方案。例如,若使用大型厚重的容器,且需要用叉车将服务器从容器中取出,那么维护成本显然会很高。要明确持续的维护成本,关键在于审视整个系统,找出所有可能出现故障的部件,并判断这些部件若发生故障应如何修复。这类部件包括管道、水泵、容器,以及是否需要更换冷却液等。
11
若设施内没有水循环回路,就无法在该设施中使用液冷技术
尽管部分数据中心配备了水循环回路设施,但即便没有,也仍可部署液冷系统。具体可通过一套“空气辅助式液路循环系统”实现:该系统不依赖设施自身的水循环,而是利用环境空气将蒸汽冷凝回液态。这种方案能让液冷基础设施的部署摆脱对建筑现有供水系统的依赖,实现独立运行。
结语:液冷技术与可持续发展
希望上文梳理的这些常见误解,能帮助大家揭开液冷技术的部分神秘面纱。当下正是人工智能(AI)产业加速发展的关键时期,其发展速度甚至超出了所有人的预期,能参与其中无疑令人振奋。尽管行业在液冷技术应用上难免经历一段学习曲线,但如今已能清晰地看到一条可行路径:在满足未来AI所需计算能力的同时,持续践行可持续发展理念。
来源:王树一一点号