摘要:硅谷那边的企业,现在花在存储上的钱,差不多到了算力总采购成本的一成,国内云厂商更夸张,存储设备在数据中心物料清单里的占比,都涨到四成了。
现在AI行业火得不行,大家以前聊智算中心,眼里几乎只有算力。
但最近明显不一样了,存储设备突然就站到了聚光灯下,成了行业里没人敢忽视的角色。
我之前也觉得算力是AI的“顶梁柱”,直到看到一些数据才改了想法。
硅谷那边的企业,现在花在存储上的钱,差不多到了算力总采购成本的一成,国内云厂商更夸张,存储设备在数据中心物料清单里的占比,都涨到四成了。
今年5月还有个大动静,三星、SK海力士那些做NANDFlash的头部厂商,居然一起减产了。
供给一收缩,全球存储市场的热度直接又往上冲了一截。
这背后其实都是AI在“搞事情”,不管是模型预训练还是日常推理,要处理的数据量越来越大,而且AI技术还没稳定下来,每天都有海量数据要存、要管。
国内的情况也挺让人惊喜的,2025中国算力大会上,信通院发的《2025存力发展报告》里说,咱们的存力规模一直在涨,结构也越来越优。
就拿闪存来说,2023年在外置存储里占25%,到2024年就升到28%了,明显是从拼容量转向拼性能。
像山东河口智算中心,今年8月刚弄好,里面先进存储占比超35%,上海更敢想,规划里智能算力基础设施的先进存储占比要冲50%以上。
这说明国内早就看清了趋势,存储这块儿是真的重视起来了。
不过存储火归火,想接住AI的需求可没那么容易,AI对存储的要求,跟以前完全不是一回事。
比如AI预训练,要存原始数据、训练中间结果,还有模型检查点,数据量动不动就到PB级,而且主要是读得多、写得少,到了推理环节,虽然不用那么大空间,但数据请求又多又急,还得实时响应,模型和参数都得靠存储缓存着。
这么一来,以前数据中心里堆着的“冷数据”越来越少,“温数据”“热数据”越来越多,照这趋势,2025年AI推理业务再涨涨,“温数据”占比还得往上走。
更关键的是,现在存储系统的核心目标变了,不再是随便处理点杂活,而是要跟GPU好好配合。
说白了就是得“喂饱”GPU,别让GPU等着要数据,不然GPU利用率上不去,多浪费啊。
但这事儿特别矛盾,既要存储容量大、反应快、带宽足、还得靠谱,又要控制能耗和成本,简直是“又要马儿跑,又要马儿不吃草”。
智算中心的能耗问题已经挺吓人了,现在都在搞万卡、十万卡集群,电力消耗大到都间接带动了核能投资。
美国能源部还预测,到2028年,他们数据中心的电力需求能占全国总需求的6.7%到12%。
而且企业钱也紧张,搞AI前期在算力和模型上投了太多,对存储价格特别敏感。
就像英特尔的Optane傲腾,以前多火啊,延迟低、寿命长,结果还是因为价格问题,2025年底就要全面停货了。
所以对从业者来说,找个性能和价格都合适的存储方案,成了最紧急的事。
本来想,这么难的需求,怕是得等阵子才有解决方案,后来发现平头哥早就拿出了镇岳510这款SSD主控芯片,还针对性地做了“六边形”能力设计,容量、时延、带宽这些关键指标都照顾到了。
最让人觉得靠谱的是,它从三个层面帮着省成本。
业务侧怕模型训练中断?镇岳510的不可恢复错误率是10的负18次方,比业界标准还低一个数量级,拿32TB硬盘举例,一天写一遍,十年才可能出一个无法恢复的错误,根本不用担心训练白做。
基建侧怕耗电?它的能效比能到420KIOPS/Watt,比竞品高20%,智算中心一半运营成本都花在电力和散热上,这一下就能省不少钱。
设备侧想平衡成本和寿命?它支持TLC、QLC,还探索pSLC和ZNS技术融合,既能保证性能和寿命,又能把成本降下来。
而且它把时延控制到了4微秒,比行业一线的6微秒还快,都快摸到PCIe链路的理论延迟下限了。
本来以为这没什么特别的,后来了解到,以前存储时延高是因为流程串行,还老要跟硬件交互,光等数据写完就得百来微秒。
平头哥是把命令解析这些步骤改成硬件并行处理,还搞了个巧办法,数据存到缓存就返回“完成”信号,再用算法保证断电不丢数据,这设计是真动了脑筋。
不光技术行,平头哥还在搭生态。
ODCC演讲里提到,它跟忆恒创源、得瑞领新这些厂商都有合作,忆恒创源都推出了基于镇岳510的国产企业级SSD产品PBlaze77A40。
现在从主控芯片、闪存颗粒,到SSD制造和应用,国内已经有了一条内循环产业链。
虽然国产高端存储产品的市场接受度还有提升空间,但手握核心技术,慢慢来肯定能行。
AI浪潮确实把存储推到了台前,以前被算力盖过的光芒,现在终于藏不住了,国内不管是存力发展还是企业技术突破,都跟上了节奏。
接下来就看行业怎么抓住机会,继续在技术和生态上发力,毕竟AI还在往前走,存储的故事肯定还有得讲。
来源:法之生活一点号