摘要:高算力需求推动算力中心单机功率密度提升。风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。算力中心绿色低碳发展持续深化的需要。PUE(Po
01AI新纪元:砥砺开疆・智火燎原
AIDC海内外散热系统发展趋势及展望
高算力需求推动算力中心单机功率密度提升。风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。算力中心绿色低碳发展持续深化的需要。PUE(Power Usage Effectiveness,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,代表算力中心的绿色化程度越高。液冷技术主要分为冷板式、浸没式和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案。
单机柜功率密度逐渐超过30kW。Colocation America数据显示,2023年全球数据中心单机柜平均功率达到20.5kW,单机柜功率超30kW占比不断提升。一般认为30kW是风冷散热的上限,随着30kW+功率机柜的快速增加,冷却方式应逐渐从风冷过渡到液冷。
液冷服务器市场规模不断提升,冷板式液冷仍占主力。从市场规模来看,观研天下数据显示,2024年中国液冷服务器市场规模将达201亿元,同比增长84.4%,预计2025年市场规模增速为46.3%,达294亿元。从市场结构来看,2024年冷板式液冷市场占比约65%;浸没式液冷市场占比约34%,喷淋式液冷市场占比约1%。
风冷散热:该方案实现方式为将风冷组件(包含热界面材料(TIM)、集成散热器(IHS)、3DVC和风扇)安置在计算平台的前端。DGX H100风冷方案(含8片H100 GPU):计算平台最前端装有3行*4列风扇用于8卡H100的散热;DGX B200风冷方案(含8片B200 GPU):计算平台最前端装有4行*5列风扇用于8卡B200的散热。
风冷散热所需要的元件:热界面材料TIM(直接覆盖在GPU之上)、集成散热器IHS(与TIM相连)、多维两相均温元件3DVC(由热管和散热片组成,安置在IHS之上)、风扇(安置在服务器最前面或者最后)。3DVC的得名来自于1维的热管、2维的散热片、3维的热管与散热片腔体互通;VC(蒸汽室)来自于液体蒸发冷凝的过程。
风冷散热的原理:芯片的热量通过TIM传导至IHS之上,热量进入3DVC中将3DVC中的液体蒸发为蒸汽,蒸汽通过热管向上传导至上方多层散热片中。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体,过程循环往复。因此,风冷散热有两部分组成:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调。
热设计功率越高,风冷散热组件所需高度越高。风冷设计的HGX H100与HGX B200基本由三部分组成:电源托盘,母板(CPU)托盘,与GPU计算托盘。GPU计算托盘高度则占到服务器高度的三分之二。芯片本身的高度近乎为0,主要高度来自于风冷散热元件:芯片热功率越高,充分散热需要的散热片高度越高。从HGX H100到HGX B200,风冷散热元件的高度增加了50%。大量的机柜内部空间被用于风冷散热而不是实际有效的集群计算。
液冷能有效解决风冷散热的痛点问题。大幅增加了机柜散热功率。水的热容量为空气的4000倍,热导率是空气的25倍。在相同温度变化中,水能存储更多的热量且热量的传递速度远超空气。GB200的水冷计算托盘设计利用冷板与冷却液的高效热交换机制,将芯片产生的热量均匀传递至冷板表面。冷却液以高流速经过冷板后能够迅速带走热量并均匀散热。
大幅提高数据中心空间利用率。风冷的HGX H100计算平台高度大概为6U(1U=4.445cm)。而采用风冷设计的HGX B200则需要10U高度的风冷设备达到散热需求。相比较而言,使用DLC的GB200计算托盘的高度仅为1U。同样部署8块GPU芯片,HGX H100高度为6U,HGX B200需要10U,而GB200 NVL72只需要2个计算托盘总计高度为2U。空间利用率大幅提升。
冷板式液冷技术:通过冷板将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出系统。冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。成本方面,一次侧占到液冷成本的30%左右,二次侧占70%左右。
冷却效果:冷板一般使用在平坦表面时换热效果最佳,例如CPU、GPU和存储器模块等,不适用于电源和IC电容器等其他组件,综合来看,冷板液冷可带走机架中设备产生的70-75%的热量,因此需要采用混合冷却方法。
冷板式液冷二次侧(室内侧)核心部件:①液冷板(Liquid Cooling Plate):液冷板是一种通过液体循环来吸收和转移热量的散热设备,广泛应用于高性能计算和数据中心。它们通常安装在服务器或电子设备上,通过液体流动来冷却设备。②快速断开装置(QD):允许快速方便地连接和断开液体管线,且不会产生漏液。③冷却液分配单元(Coolant Distribution Unit,CDU):负责冷却剂的分配、调节和监控。它们确保每个服务器都能获得适量的冷却液,以维持适宜的运行温度。CDU分为L2A,包括:RPU(泵、水箱)、散热片、风扇。以及L2L,包括:RPU和钎焊板式换热器(BPHE)。④机柜内部管线(Manifold):柜内管线包括Rack Manifold(机架管)和Row Manifold(行管),是液冷系统中用于分配冷却液的管道系统。Rack Manifold负责将冷却液分配到机架中的各个服务器。Row Manifold则负责在机架内部分配冷却液到每行的服务器。
冷板式液冷机柜价值量拆分(以GB200 NVL72机柜为例)。GB200 NVL72机柜内部液冷系统的整体价值约为8.4万美元,占机柜成本的2.8%左右(假设机柜液冷总成本300万美元)。分零部件来看,GB200 NVL72机柜包含126颗芯片,其中,Compute Tray包含芯片108颗(72*GPU+36*CPU),对应冷板价值量约3.2万美元;Switch Tray芯片对应冷板价值量约3600美元,合计占比达43%。冷却分配单元(CDU)单价3万美元,占35.8%。快接头价值量占比约10.5%,Manifold约占4.8%。总体来看,液冷板与CDU两项合计占整体液冷成本的78.8%,为液冷方案的核心零部件。
浸没式液冷是一种通过将发热的电子元器件(如 CPU、GPU、内存及硬盘等)全部或部分直接浸没于装有非导电惰性流体介质的机箱中的液冷散热技术。它包含两个循环:一次侧循环利用室外冷却设备(如冷却塔或冷水机组)与热交换单元(如CDU等)进行热交换,排出冷却液热量;二次侧循环中,CDU与液冷箱内的IT设备热交换,传递热量给冷却液。
根据冷却液在循环散热过程中是否发生相变,分为单相浸没式液冷和双相浸没式液冷。①单相浸没式:作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。②两相浸没式:作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。
浸没式液冷由于发热元件与冷却液直接接触,散热效率更高,相对于冷板式和喷淋式液冷,噪音更低,能解决高热密度机柜的散热问题。①单相浸没式液冷中,介电冷却液(沸点较高)保持液体状态,电子部件直接浸没在液体中,热量从电子部件传递到液体中。通常使用循环泵将经过加热的冷却液流到热交换器,在热交换器中冷却并循环回到容器中。②相变浸没式液冷是以相变冷却液(沸点较低)作为传热介质,在工作状态下,当冷却液的温度升高到系统压力所对应的沸点时,冷却液发生相变,从液态变化为气态,通过汽化热吸收热量,实现热量的转移。
综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案,冷板式液冷可以实现从传统风冷模式的平滑过渡,在数据中心领域应用更多。
报告来源
证券研究报告名称:《如何理解政治局会议和“十五五”思路——7月政治局会议解读》
对外发布时间:2025年7月30日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
02人工智能2025中期投资策略报告:推理走向舞台中央,自主可控大势所趋,Agent及多模态加速
液冷:液冷散热加速渗透,大陆供应链机会显现
高算力需求推动算力中心单机功率密度提升,液冷散热走向必选。传统风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。此外,液冷散热相较于风冷更加绿色低碳,PUE(Power Usage Effectiveness,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,代表算力中心的绿色化程度越高,液冷散热往往更接近于1。从分类来看,液冷技术主要分为冷板式、浸没式和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案。
以英伟达GPU芯片为例,单芯片及机架热功耗增长迅速。英伟达的B系列芯片和NVL72机柜热设计功率TDP(Thermal Design Power)大幅提升:H100的TDP最高为700W,B200的TDP最高为1200W,增长约7成;H100每个机架的TDP约为40kW,B系列机架的TDP约为120kW,功率增约200%-500%。H100机柜主要采用风冷散热,但是由于受限于风冷散热效率较低和空间利用率低的缺点,GB200 NVL72机柜采用水冷散热。水冷散热能够提高芯片散热效率,大幅提高计算密度从而降低芯片互联之间的延时,进一步降低模型训练成本。
风冷散热主要元件:热界面材料TIM(直接覆盖在GPU之上)、集成散热器IHS(与TIM相连)、多维两相均温元件3DVC(由热管和散热片组成,安置在IHS之上)、风扇(安置在服务器最前面或者最后)。3DVC的得名来自于1维的热管、2维的散热片、3维的热管与散热片腔体互通;VC(蒸汽室)来自于液体蒸发冷凝的过程。风冷散热原理方面,芯片的热量通过TIM传导至IHS之上,热量进入3DVC中将3DVC中的液体蒸发为蒸汽,蒸汽通过热管向上传导至上方多层散热片中。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体,过程循环往复。因此,风冷散热有两部分组成:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调。
液冷散热在散热能力及空间利用率方面优势显著。水的热容量为空气的4000倍,热导率是空气的25倍。在相同温度变化中,水能存储更多的热量且热量的传递速度远超空气。GB200的水冷计算托盘设计利用冷板与冷却液的高效热交换机制,将芯片产生的热量均匀传递至冷板表面。冷却液以高流速经过冷板后能够迅速带走热量并均匀散热。空间利用率方面。风冷的HGX H100计算平台高度大概为6U(1U=4.445cm)。而采用风冷设计的HGX B200则需要10U高度的风冷设备达到散热需求。相比较而言,使用DLC的GB200计算托盘的高度仅为1U。同样部署8块GPU芯片,HGX H100高度为6U,HGX B200需要10U,而GB200 NVL72只需要2个计算托盘总计高度为2U。空间利用率大幅提升。
冷板式液冷可带走70%-75%的热量。冷板式液冷通过冷板将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出系统。冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。成本方面,一次侧占到液冷成本的30%左右,二次侧占70%左右。从冷却效果来看,冷板一般使用在平坦表面时换热效果最佳,例如CPU、GPU和存储器模块等,不适用于电源和IC电容器等其它组件,综合来看,冷板液冷可带走机架中设备产生的70-75%的热量,因此需要采用混合冷却方法。
冷板是服务器液冷核心部件。冷板的材质可以选用铜、铝、不锈钢和钛合金等不同材质。铜导热系数高,工艺性好,对于普通大气环境、海洋性气候条件及水等液体介质是适用的。铝冷板目前在数据中心行业的使用还比较少,核心原因系铝材质的换热能力低于铜材质,铝的导热率是铜的60%左右,相同换热设计下,铝冷板的热阻更高;此外,铝材质活性更高,更容易与冷却工质发生反应,严重的可能造成冷却工质杂质增加,冷板腐蚀、泄露,甚至最终影响系统使用。优点方面,冷板材质从铜到铝能帮助整个全液冷系统冷板重量节省约44%,而且铝冷板加工工艺灵活,大规模量产后一定程度上能比铜冷板成本节省20%以上。其他材质:石墨烯涂层冷板,即在铝板表面喷涂石墨烯(成本增加20%),但可减少冷板厚度30%,整体系统体积缩小。
浸没式液冷:通过将发热的电子元器件(如 CPU、GPU、内存及硬盘等)全部或部分直接浸没于装有非导电惰性流体介质的机箱中的液冷散热技术。它包含两个循环:一次侧循环利用室外冷却设备(如冷却塔或冷水机组)与热交换单元(如CDU等)进行热交换,排出冷却液热量;二次侧循环中,CDU与液冷箱内的IT设备热交换,传递热量给冷却液。根据冷却液在循环散热过程中是否发生相变,分为单相浸没式液冷和双相浸没式液冷。①单相浸没式:作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。②两相浸没式:作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。
喷淋式液冷:直接接触式液冷,面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式。散热效果:喷淋式液冷也可完全去除散热风扇(实现100%液体冷却),换热能力强,相较于浸没式液冷节省冷却液,数据中心PUE可降至1.1左右。喷淋式液冷需要对机柜和服务器机箱进行改造,运维难度较大,节能效果差于浸没式液冷。
英伟达从Hopper到Blackwell硬件的第二大转变是采用了直接到芯片的液冷技术(DLC),以提高机架级别的计算密度。据估算,GB200 NVL36 L2A机柜热管理价值量中,服务器层面(冷板、风扇)价值量占比约26%,机架层面(Compute Tray、NV Switch、CDU、Mainfold)价值量占比约65%。GB200 NVL72 L2L服务器热管理价值中,服务器层面价值量占比约38%,机架层面价值量占比约47%。关注GB300服务器新变化:GB200服务器设计中,冷板采用“一进一出”配置,每个Compute Tray配备6对快接头,NVL72系统整体快接头数达126对(Switch Tray 2对),总价值量约10080美元;而GB300可能摒弃“大冷板”,为每个GPU配备单独的冷板,单个Compute Tray数量从6对增至14对,但新型快接头价值量有所下降,经测算,NVL72系统中快接头总价值量约14040美元。
我们认为,散热方面将是AI算力领域未来几年核心技术升级方向之一,英伟达单卡功耗从700瓦到1200、1400瓦,未来有望迭代至2000瓦+,并且大机柜、超节点的出现,热源的叠加使得散热难度进一步提升,因此散热成为了接下来持续迭代升级的方向。其次,目前供应商以台系、美系厂为主,如Coolermaster、AVC、BOYD及台达等,中国大陆供应商比例较低,随着液冷散热从研发走向大规模量产,中国大陆公司扩产能力更具优势,我们认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系。
来源:点滴财学