摘要:在AI的喧嚣热潮里,大家的目光几乎都被GPU这类“明星选手”吸引,可你知道吗?有一个环节默默支撑着整个AI体系的运转,却长期被市场低估,它就是存储。今天咱们就来好好聊聊,这个在AI产业链里扮演着“幕后英雄”角色的领域,到底有多重要,又藏着哪些不为人知的逻辑。
在AI的喧嚣热潮里,大家的目光几乎都被GPU这类“明星选手”吸引,可你知道吗?有一个环节默默支撑着整个AI体系的运转,却长期被市场低估,它就是存储。今天咱们就来好好聊聊,这个在AI产业链里扮演着“幕后英雄”角色的领域,到底有多重要,又藏着哪些不为人知的逻辑。
很多人觉得AI的核心就是GPU,这想法本身没错,毕竟GPU是AI计算的“动力心脏”。但你想过没有,要是没有足够快、足够大的存储系统来“喂饱”它,再强的GPU也只能干瞪眼。就像一辆跑车,发动机再猛,油箱小或者供油跟不上,照样跑不起来。
AI模型的发展就是最好的证明。以前的模型几十GB就能运行,现在随随便便就是上百亿参数,训练所需的数据量更是以PB、甚至EB为单位(1EB等于1024PB,1PB等于1024TB)。这么庞大的数据量,普通硬盘根本扛不住。更关键的是,AI训练不是读一遍数据就完事,它得反复调用数据,还得不断把中间结果写回去。要是存储速度跟不上,GPU就得在那干等着,效率能不打折扣吗?
等模型到了推理和实际应用阶段,对存储的依赖还是没减。比如现在很火的检索增强生成(RAG),得实时从数据库里取材料给模型生成答案,存储系统要是不够快,回答延迟都是轻的,搞不好直接就卡壳了。所以说,从训练到推理再到应用,存储就是AI基建里绕不开的关键环节。
现在的问题是,存储体系和实际需求的差距越来越大了。IDC预测,到2028年全球数据总量会接近394ZB,可目前全行业每年新增的存储产能才1-2个ZB。这意味着什么?未来几年,谁能在存储容量上实现突破,谁就能在这个赛道上占据先机。
从技术层面看,存储架构也在悄悄发生大变化。AI的工作负载要求很高,得响应快、能支持大量并发访问,还得延迟低。传统的机械硬盘(HDD)虽然容量大,但速度和能效都不行,越来越满足不了需求。于是,存储领域就形成了新的分工:
- 对于经常要用到的“热数据”,全闪存的SSD正在成为标配;
- 对于那些体量很大、访问频率却不高的“冷数据”,大容量SSD和部分HDD还有发挥空间。
这种分工差异,也让不同的存储厂商有了各自的机会。有的厂商在HDD和企业级SSD上有深厚积累,适合做数据湖这类冷存储;有的主攻全闪存方案,契合AI训练和推理的高频调用需求;还有的存储芯片和NAND厂商,借着AI带来的快闪需求东风,迎来了增长机遇。甚至一些小规模的公司,只要在特定场景里布局得够灵活,在上行周期也能分到一杯羹。
那存储为啥以前会被低估呢?主要还是因为市场的注意力都被GPU吸走了。可实际上,GPU要是没有稳定的存储供给,根本没法高效运转。尤其是英伟达Blackwell架构开始放量后,数据需求被推到了一个新高度。那些超大规模的云厂商采购GPU时,不会只买算力,而是会把存储和网络一起打包采购,这就让存储从幕后配角变成了必须同步布局的核心环节。
从投资的节奏来看,一般是先补存储容量,再补性能。也就是说,大厂会先扩大数据湖的容量,避免数据堵塞,之后再扩展高性能SSD来保证速度和延迟。这么一来,HDD和大容量SSD厂商可能会先受益,全闪存方案和相关软件厂商则会在第二阶段接力。从更长远的角度看,新型存储架构也会慢慢带来一些新的机会。
当然,这里面也有需要注意的地方。要是GPU交付延迟了,存储采购也会跟着顺延,但不会消失,只是节奏会变。还有像QLC SSD,虽然能降低成本,但得搭配软件使用,不然在高频写入的场景下可能会出问题。另外,能耗和散热一直是数据中心的硬约束,SSD虽然在能效上有明显优势,但得在整体的电力和散热方案里落地,才能真正把优势体现出来。
整体来看,AI的发展正在让存储的重要性快速提升。以前它只是个后台角色,现在逐渐走到了台前。GPU是发动机,存储就是油箱和供油系统,缺一不可。随着数据规模持续扩大、模型越来越复杂、GPU集群不断扩张,存储的需求只会越来越突出。
对于咱们普通读者来说,存储不是那种能制造短期热点的领域,但它的趋势很明确,确定性也很强。它可能不会像GPU那样成为市场明星,但它是AI工厂能否顺畅运转的关键拼图之一。存储正在从可有可无变成必不可少,这种转变背后的价值,值得我们好好关注。
来源:阿伟