AI新战场!万卡GPU的投资机会梳理

B站影视 2024-12-27 02:59 2

摘要:12月26日,获悉小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。小米大模型团队在成立时已有6500张GPU资源。

12月26日,获悉小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。小米大模型团队在成立时已有6500张GPU资源。

公开资料显示,自2016年组建AI团队以来,小米人工智能团队经过7年6次扩展,相关领域人员规模已达3000多人,其AI技术能力已覆盖视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态方向,并逐步接入手机、汽车、AIoT、机器人等业务板块。

1、万卡集群是什么?

万卡集群就是个超厉害的计算系统,里面用了超过1万张GPU,专门为训练那些超大的AI模型设计的。它结合了最先进的GPU算力、高速网络、大容量存储和智能计算平台技术,基本就是一台“超级计算机”。

比如像OpenAI训练GPT-4那样的大模型,用了这种系统后,原来可能需要几个月的训练时间,现在几周甚至更短就能搞定。而且模型更新也会更快、更高效。小米现在搭建的这个万卡集群,估计就是奔着这种效率来的,为他们的AI技术升级铺路。

2、全球万卡集群的发展情况

全球科技巨头竞相布局千卡至超万卡集群,以强化大模型竞争力。随着模型参数量向万亿迈进,对底层算力提出更高要求,万卡集群成为大模型竞赛的关键门槛。

AI主战场,万卡成标配

全球大厂算力配置印证万卡标配地位,OpenAI、Google、Meta、字节跳动等巨头单集群均超万卡规模。

国际上,马斯克近日就透露,新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练,因此将会“非常特别”,为此耗资多达三四十亿美元;谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU;Meta训练下一代大模型的两个集群拥有24576块H100 GPU,16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设比如字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型,科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台“飞星一号”。

下图是万卡集群主要企业情况介绍:

3、万卡集群的运作机制

核心计算:GPU并行架构

传统数据中心主要依赖CPU,但AI模型的训练和推理需要高性能并行浮点运算,因此GPU成为主力芯片。集群内通过高速互联通信网络,将数万块GPU紧密连接,形成一个整体计算单元。

供电系统:高功率密度支持

GPU服务器的功率密度显著高于传统CPU服务器,单机柜的功率密度从5千瓦跃升至40千瓦甚至100千瓦。为支持这种高功率需求,数据中心采用先进的配电系统,确保电力的高效传输和负载平衡。

冷却系统:液冷为主

液冷技术:利用水作为主要散热介质,通过冷板液冷或浸没液冷将热量高效带走。

热量交换:通过显热交换和潜热交换,利用水蒸发或冷却过程中的相变吸收热量。

水质控制:高质量水减少对冷却设备的腐蚀和结垢问题,提升冷却效率。

能源与水资源消耗

数据中心的耗电量和耗水量极为庞大,例如XAI万卡集群每天消耗150兆瓦电力和100万加仑水。这些消耗引发了环保和社会争议,尤其在水资源匮乏的地区加剧了干旱问题。

冷却优化:自然冷技术。为减少能源消耗,采用自然冷(Free Cooling)技术,利用室外低温冷源。

氟侧自然冷成为一种重要技术,无需水资源,通过氟泵和冷媒实现节能降温。

应对挑战

散热升级

第一,随着功率密度的提高,散热要求也同步提升,液冷成为主流。

第二,未来技术趋势可能是进一步优化液冷方案或探索无水冷却技术。

能效提升

第一,企业在压缩机、氟泵的切换优化上持续研发,以降低系统能耗。

第二,提高系统温度设定虽然能节省制冷功耗,但需避免因过高温度设置导致的系统性风险。

环保压力:数据中心需在设计时充分考虑其对当地资源的影响,包括水资源和能源的合理利用。

芯片兼容性

随着GPU和新型芯片(如英伟达Blackwall芯片)的性能提升,数据中心需不断调整基础设施以匹配新的功耗和散热需求。

4、万卡GPU集群产业链相关上市公司

万卡GPU集群的产业链涉及多环节,包括芯片设计与制造、服务器及数据中心建设、通信设备、软件开发,以及下游应用服务等领域。以下是各环节的主要上市公司:

在AI时代,万卡GPU集群已经成为各大科技企业竞争的核心领域。无论是Google、Meta这样的国际巨头,还是国内的中国移动、字节跳动等科技公司,都在大力投入这一领域。

小米搭建GPU万卡集群是其在AI和大模型领域的重要布局,展现了其希望通过计算能力的提升,增强技术竞争力和产业生态影响力。这将为其未来智能硬件、云计算以及新兴行业应用提供强有力的支撑。小米是否能成功实现这一计划的商业化,还需关注其资源投入、生态整合及市场拓展的具体进展。

在挖掘万卡GPU产业链投资机会的方面,是存在战略投资机遇的,需要耐心挖掘行业卖铲子的公司(给三大运营商、互联网头部企业等科技公司提供零部件的上市公司,比如液冷、电源、通信设施、服务器等)

原创观点不易,希望各位能够多多支持!你的一个点赞、一次转发、随手分享,都是禅兄前进的最大动力~

日拱一卒,让我们一起慢慢变富!

来源:燕青策论价值

相关推荐