摘要:当AI应用以“周”为单位迭代进化,当千亿、万亿参数的大模型成为竞争的基石,全球科技竞争的焦点,已从单纯的“算力竞赛”,悄然蔓延至一片更为底层的战场——存储。
当AI应用以“周”为单位迭代进化,当千亿、万亿参数的大模型成为竞争的基石,全球科技竞争的焦点,已从单纯的“算力竞赛”,悄然蔓延至一片更为底层的战场——存储。
如果说算力是引擎,数据是燃料,那么存储就是容纳燃料并确保其能高速、稳定输送至引擎的“智能油箱”与“高速输油管”。如果存储跟不上时代的需求,即便有再强大的算力,也只是“巧妇难为无米之炊”,空转的引擎无法驱动AI这艘巨轮前行。
AI重构存储行业AI 技术的爆发式增长正在重构存储需求的底层逻辑。《2025存力发展报告》显示,全球数据总量将在2025年突破200ZB,其中AI训练数据年增速达67%,这种增长不仅体现在容量维度,更催生了性能、架构、协同的全方位变革。
首先就是节点的增加,曙光存储运营总监石静告诉笔者,当前大模型训练需要千卡集群,甚至万卡集群,多计算节点同时存储的过程中,对存储的压力要比通算时代增加了很多。
另一方面,AI时代,企业数据集规模越来越大,且数据来源和种类的丰富多样性也“不可同日而语”。“当前,企业构建一个存储体系,动辄就是几十PB,甚至上百PB。同时,大模型时代之后,原先传统意义上的‘冷数据’,已经变成了‘温数据’,甚至是‘热数据’。这也对存储的架构提出了很多新的需求。”石静强调。
此外,在AI时代,最大的不同是——对高性能存储的需求愈发强烈。大模型训练对存储带宽的渴求呈现指数级增长,当前,AI训练所用带宽需求已经进入“TB级纪元”。益企研究院《AI时代的存储基石》白皮书指出,2025年AI训练集群的平均存储带宽需求较2023年提升300%,传统HDD存储150MB/s的带宽已成为明显瓶颈。
而对于带宽的要求也不仅局限于模型训练阶段,石静表示,在推理过程中,企业也需要具备千万级别IOPS低时延的带宽支撑高并发的推理场景,“比如现在大家都在讲提升训练和推理效率,但在这个过程中,也需要存储能够‘跟得上’GPU的速度,不至于出现GPU等待数据IO的情况。”石静指出。而这点在以往的通算时代却并不是绝大多数企业对于存储的需求。
在AI重构存储行业的过程中,随着需求的裂变式增长,存储行业面临前所未有的挑战。
首先是架构瓶颈。传统存储与计算分离的架构导致数据搬运成本激增,中国移动呼市数据中心早期采用的集中式存储系统,在支撑“九天大模型”训练时,GPU利用率仅能达到40%。北京大学孙广宇教授曾指出,数据在内存与存储间的搬运能耗占系统总能耗的50%以上,这种“数据搬运困境”成为AI效率提升的主要障碍。即使采用RDMA网络加速技术,传统架构仍难以突破带宽与延迟的物理极限。
其次是成本压力。性能与投入的失衡困境。全闪存储是满足AI性能需求的核心选择,但成本始终是规模化应用的障碍。2025年QLCSSD单位容量成本虽较2023年下降40%,但仍比HDD高出2.3倍。
第三是管理难题,多模态数据的治理困境。AI时代的数据呈现“4V”特征——体量巨大、种类多样、价值密集、实时性强,给存储管理带来严峻挑战。
高性能、绿色化,存储行业未来路在何方?面对AI需求的倒逼与可持续发展的要求,存储行业正形成 “高性能突破”与“绿色化转型”双轮驱动的发展格局。
在高性能方面,高性能存储技术的演进正从单点优化转向体系性突破,涵盖介质、架构、协议等全链条创新。
介质方面,全闪成为“必选项”。闪存技术的成熟使全闪存储从高端场景走向普及,《2025存力发展报告》显示,全国外置闪存占比已超过28%,金融、制造、互联网行业渗透率超45%;架构方面,分布式架构主导规模化部署。集中式存储的扩展瓶颈在AI时代愈发明显,分布式存储凭借弹性扩展能力成为主流;协议层面,协议与硬件的协同加速。NVMe-oF与RDMA技术的结合,正在打破存储与计算间的通信壁垒。比如,在中国移动呼市数据中心中,就采用了曙光存储的“NVMe-oF+RDMA”组合方案,使存储网络带宽提升2倍,延迟降低3倍。
中国移动呼市数据中心的实践表明,千亿参数模型单次训练需读取超10PB样本数据,持续带宽需求达TB级。据悉,曙光存储为该中心配置的总量逾60PB的存储资源(包括全闪、混产品),通过高密与数据节能的技术,在400G网络下实现单节点190GB/s带宽的同时,降低了整体存储建设成本,提升性价比。
从长远发展上看,存储行业光有高性能远远不够。作为高载能的数据中心,这几年一直致力于推动全生命周期的碳中和,在“双碳”目标与能源成本压力下,绿色存储已从可选配置变为必选项,形成“技术节能+结构优化+政策引导”的发展路径。
硬件层面,中国移动呼市数据中心规模化应用液冷与间接蒸发技术,使智算中心PUE降至1.15。软件层面,智能调度算法成效显著,曙光存储的动态电压调节技术根据负载调整能耗,《绿色存储技术研究》报告显示,采用智能节能技术的存储系统,能效比可提升45%以上。
结构优化层面,绿电替代成为数据中心绿色转型的核心举措,中国移动呼和浩特数据中心总经理王科峰介绍,中国移动呼市数据中心2025年绿电占比将达100%,较2024年的69%实现跨越式提升。绿电的应用不仅有中国移动呼市数据中心这一个个例,《2025存力发展报告》显示,西部数据中心绿电占比平均达58%,较东部高出23个百分点,成为绿色存储的主战场。
政策层面,国家层面的政策引导正在加速绿色存储落地,“东数西算”工程明确要求枢纽节点数据中心PUE低于1.25,推动存储系统向低能耗方向发展。行业标准也不断完善,IEEE提出的存储级能效比(SER)指标,通过量化每GB数据的年能耗,为绿色存储提供了评价依据。
除了高性能与绿色化的需求之外,在各行业降本增效的当下,成本也是绝大多数IDC用户考虑重要因素之一。在成本方面,为了更具“性价比”,中国移动呼市数据中心采用“全闪+混闪”的配置,正是平衡性能与成本的折中方案,这种模式已成为国内智算中心的主流选择。爱集微咨询数据显示,AI存储的单位TB建设成本是传统存储的3.7倍,某互联网巨头2025年存储投入同比增长52%,仍难以完全匹配算力扩张速度。
在管理层面,还是以中国移动呼市数据中心为例,其支撑的40余个行业大模型中,既有结构化的政务数据,也有非结构化的医疗影像,传统存储管理系统难以实现精准的冷热数据分层。面对此,曙光存储拿出了StorInsight智能分析工具,通过实时采集IO特征,自动将热数据迁移至全闪层,使存储资源利用率提升35%,但这种智能化管理能力在行业内的普及率不足20%。
通过存储架构的优化与管理系统的智能化,在确保高性能的前提下,将成本降到最低,这点直击了绝大多数用户的痛点。
存算融合是趋势除了确保高性能存储与绿色化需求之外,未来的数据中心,尤其是像中国移动呼和浩特这样的国家枢纽节点,其定位将不再是简单的“算力中心”,而是“存力与算力融合的中心”。
在融合的过程中,存算一体的架构瓶颈是最大挑战。北京大学孙广宇教授指出,未来将形成“层次化的异构存算一体架构”,针对AI训练、推理等不同场景采用差异化融合方案。
为解决“内存墙”问题,存算一体技术将计算单元与存储单元深度融合,曙光存储正在研发的存算合封解决方案,通过先进封装技术拉近数据与计算的距离,预计能效提升300倍。
与此同时,在“东数西算”政策推动下,构建跨域协同存力网络也成为关键,存储资源正形成跨区域协同格局。中国移动依托 “4+N+31+X”体系,以呼市数据中心为核心节点,通过400G算力专网实现存储资源的全国调度。曙光存储正在构建跨区域数据授权与安全机制,解决数据流动中的信任问题。《2025存力发展报告》显示,东部与西部存力协同调度可使整体存储成本降低22%,算力利用率提升18%。
未来,随着存算一体、AI原生等技术的成熟,存力将成为数字经济的核心生产力,为大模型创新、产业智能化转型提供坚实支撑。(文|Leo张ToB杂谈,作者|张申宇,编辑丨盖虹达)
来源:钛媒体
