AI浪潮之下：存储来到聚光灯下

摘要：有数据显示，硅谷企业对于存储的投资接近算力总购买成本的 10%。而来自“金融界”的消息称，云厂商对存储设备的采购占比，在数据中心 BOM（物料清单）中已升至 40%。到了今年 5 月，三星、SK 海力士、美光、铠侠与闪迪五大 NAND Flash 制造商同步减

作者 | 王一鹏

如果将整个行业对智算中心的投资分拆来看，我们将得到一个趋势性结论：算力不再是唯一重点，行业对存储设备的重视正在上升。

有数据显示，硅谷企业对于存储的投资接近算力总购买成本的 10%。而来自“金融界”的消息称，云厂商对存储设备的采购占比，在数据中心 BOM（物料清单）中已升至 40%。到了今年 5 月，三星、SK 海力士、美光、铠侠与闪迪五大 NAND Flash 制造商同步减产，供给面收缩，进一步使全球存储市场热度上升。

而这一切的根因，都源自 AI 业务对整个 AI 基础设施建设的强烈刺激。一方面，无论是预训练还是推理，体量都在增长，近三年过去了，生成式 AI 技术仍未到达稳定态，有海量的数据需要被存储和治理。另一方面，AI 推理业务自有其场景化、业务化特点，存储设备需要从旧有的架构，进化成先进存储。

2025 中国算力大会期间，信通院发布的《2025 存力发展报告》指出我国存力总规模迅速增长的同时，存力结构持续优化，闪存在外置存储中的占比从 2023 年的 25% 提升至 2024 年的 28%，显示存储系统正加快由容量驱动向性能导向转型，其结构更趋高效。在 8 月刚完成的山东河口智算中心，先进存储占存储总量 35% 以上；而在上海市智能算力基础设施的规划中，先进存储在总存储容量中占比目标是达到 50% 以上。

对于国内厂商而言，这是明确的市场机会。从存储晶圆颗粒、存储介质到主控芯片，国内的存储产业技术不断进步，生态逐渐壮大，同时最终客户的需求也愈加清晰和急迫。主控芯片堪称存储产品的“大脑”，尤为重要。平头哥在 2023 年就前瞻性地为 AI 需求增长打造了镇岳 510 这款在时延、能效、带宽、可靠性等各方面全方位领先的“六边形战士”。

1 想“喂饱”GPU，AI 存储需要阶段性重构

主控芯片负责数据读写、错误纠正、损耗均衡等，对固态硬盘的性能、可靠性和寿命至关重要，因此也对 AI 负载的不同需求尤为敏感。

AI 预训练业务需要存储系统具备超大容量，因为既需要存储原始数据，也需要存储模型训练的中间结果和模型检查点，数据量一般会达到 PB 级，读多写少。而 AI 推理业务，对数据的请求量巨大、高并发、实时性强，虽然要求的存储容量相对预训练要低，但也需要缓存模型、参数和实时数据。

这种独特的业务形态，使得过往存储于数据中心的“冷数据”的体量在下降，而“温数据”、“热数据”的占比在上升。到 2025 年，随着 AI 推理业务占比的提升，“温数据”的占比将进一步增加。

曾经数据中心的存储系统，任务比较多元，而随着 AI 兴起，数据消费行为发生改变，存储系统的核心工作目标，全面转向了与 GPU 的协同，包括尽量减少 GPU 等待数据供给的时间，提高 GPU 的利用率。尤其是服务于 AI 模型训练的算力集群，其利用率还远未达到理想值，瓶颈之一就在于配套存储的吞吐能力。

因此，想把 GPU“喂饱”，实际上是个“既要又要”的问题——既需要存储系统在容量、时延、带宽、可靠性上有所突破，又要更好地控制能耗，尽最大可能控制成本。

今天的智算中心设计，目标是万卡集群、十万卡集群，乃至二十、三十万卡集群，其能源消耗已经到达一个相当恐怖的境地，甚至间接拉动了对核能领域的投资。美国能源部预测，到 2028 年，美国数据中心的电力需求将占美国总电力需求的 6.7%-12%。算力利用率不够高，集群训练效率不够高，也进一步抬高了同等算力规模下，针对模型训练的能源需求。

另外，在世界范围内，由于闭源顶级模型仍是承接业务 Token 调用的“主力”，而对算力和模型训练的预投入，已经消耗了大笔预算，企业在落地 AI 时总觉得有些捉襟见肘。所以，即便先进存储的能力已经全面升级，客户对可能会上扬的价格仍是极度敏感的。

该如何理解这种价格敏感呢？英特尔的 Optane 傲腾作为曾经的“明星内存”，无论是延迟还是使用寿命都有极佳表现，但如今已经退市，2025 年底全面停止出货。傲腾寿命终结的原因有很多，价格就是其中核心之一。

对于从业者而言，寻找一个性能、价格双优的新方案，成了当务之急，而这也是新一代存储主控需要回答的问题。

2 镇岳 510 的“六边形”能力

平头哥提交的答案是镇岳 510，并围绕 AI 业务的发展现状，为这款 SSD 主控芯片定义了“六边形”能力：

在这六维能力中，隐藏着一个核心设问：当 AI 落地企业后，站在存储设备的角度，应该如何计算和节省整个产业的运行成本？

镇岳 510 从芯片设计上的回应，大概分可为三个层级：业务侧，主要是模型训练中断后的恢复成本；基建侧，是智算中心的运营成本；设备侧，是存储的使用寿命，或者可以称之为“换新成本”。

在业务侧，由于训练规模大、耗时长，模型训练中断几乎是不可避免的，此处成本的主要来源是，当存储设备出现不可恢复性错误，以至于模型无法基于断点恢复训练，企业付出的代价可能比存储设备本身的价值还要高。这就要求所谓“可靠存储”。

业界对此的标准是一个很极端的值：UBER 10^-17，意为不可恢复错误率为十的负十七次方，在读取 10^17 个比特的数据时，统计上预期只会发生 1 个无法自行纠正的错误。

镇岳 510 的可靠性是 UBER 10^-18，优于业界标准一个数量级：如果是读取一块 32TB 的硬盘，一天写一遍，十年才出一个无法恢复的读错误。

在基建侧，问题与能效指标绑定了在一起，与智算中心的日常运营直接相关。我们很难将此与“AI 应用落地”这一大的趋势分拆来看，因为产业上游所有的成本，最终都会以某种形式累积到下游的具体应用上。

而对于位于上游的智算中心来说，50% 左右的运营成本都出自电力和冷却散热。IOPS 可以提升吗？当然，提升主频、提高电压、增加核心 / 通道数等方案，都可以直观地提升 I/O 能力。但这种略显粗暴的升级手段，也会带来能耗的直线上升。而镇岳 510 的设计考虑更加全面，其能效比达到 420K IOPS/Watt，这比竞品高 20%，实现了性能与功耗更优的平衡性。

在设备侧，闪存类型是 SSD 先天的物理基础，涉及到三种主要技术：SLC，TLC，QLC。SLC 速度快、寿命长、可靠性高，但是成本也很高；TLC，QLC 都是容量密度高、成本低，但寿命短。

镇岳 510 不仅支持 TLC/QLC，同时也积极探索 pSLC 技术，以及 QLC 和 ZNS 技术的融合——前者可以将 TLC/QLC 等颗粒模拟 SLC 模式运行，以部分容量换取更高性能和更长寿命；后者将 SSD 空间划分为只能顺序写入的区域，可以显著降低写放大，进一步延长寿命。

QLC+ZNS 可以将以镇岳 510 为核心的 SSD 方案的成本大幅降低，在容量密度、成本、寿命三个维度达到了一个很好的平衡点。

今天的企业在做 AI 基础设施选型时，是两条“腿”走路：一条“腿”是低成本，一条“腿”是高业务价值，所以回答完成本问题，平头哥也要回答业务价值问题。AI 推理业务要求存储设备提供的核心价值之一是时延——作为整个优化链条的起点，存储设备取数的时延必须足够低，也就是前文提到的“喂饱 GPU”的问题。

行业一线水平是 6 微秒，镇岳 510 的数据是 4 微秒——这意味着，平头哥把时延压到了近乎极致，几乎接近 PCIe 链路本身的理论延迟下限，尤适配在线交易、实时分析类场景，与如今 Data & AI 的整体技术发展方向是一致的。

平头哥半导体产品总监周冠锋对 InfoQ 表示，这是他认为镇岳 510 实现的超高难度、也最令人自豪的性能指标。

此前存储设备时延难以降低，核心是因为许多流程是串行的，而且需要与硬件频繁交互，尤其是实际写入阶段，只有等数据全写完了，主控才会发送“写完”信号，光是这一步就需要上百微秒。

平头哥的设计思路是，首先解决串行问题。

很多标准步骤（如命令解析、地址解析、数据获取等）改由专用硬件模块并行处理，相当于打造了一条“硬件自动化处理流水线”，只有遇到异常时，才会交还给 Firmware 处理。这也减少了与硬件的交互频率，提高了灵活性。

其次，解决写数据时间长的问题。平头哥采用了一个非常巧妙的策略：只要确保数据已经安全接收并存入内部缓存，就返回“完成”信号，而不是等数据真的写完。而镇岳 510 通过优化的异常处理流程和算法来保证：即使在极端情况下（如突然断电），已确认但尚未完全落盘的数据不会丢失，上电后会继续完成写入。

这是个大胆的设计，难的是在设计和工程角度上确保可靠，平头哥完成了这一任务，以至于在容量、带宽上的表现，都变成了行业对镇岳 510 的“合理期望”。

3 生态问题，不是平头哥的短板

在镇岳 510 面世后，平头哥以此为核心在生态层面的工作也正迅速展开。

在 ODCC 的演讲中，平头哥展示了忆恒创源、得瑞领新、佰维存储和长江万润几家重点合作企业，其中既有国内企业级 SSD 头部厂商，也有在全系存储都有布局的龙头企业。涉及领域不仅是工业级存储，也包括消费级、车规级。

平头哥和忆恒创源的合作开始得最早，进展也最为迅速——忆恒创源推出了基于平头哥主控芯片的全国产企业级 SSD 产品 PBlaze7 7A40。平头哥作为核心芯片供应商，与下游 SSD 制造商等企业协同，共同打造全国产化存储解决方案的生态路径。

有平头哥技术专家进一步解释了这种生态合作的方式：作为半导体公司，平头哥会与行业内开发 SSD 模组的公司进行重点合作，提供芯片、软件使用手册，硬件指南，详尽的技术支持，帮助合作伙伴更快的开发产品。

而到了 2025 年，这种合作模式已经初见成效，使平头哥的先进芯片，能够快速形成实际的硬件解决方案，走到最终客户面前。中国硬科技企业在生态构建上不断进步，从主控芯片、闪存颗粒，到 SSD 产品设计与制造，再到广泛应用，一个内循环的产业链条已经形成了。

市场对国产高端产品的接受度，固然还有改善空间，但对于掌握了核心技术的平头哥来说，完全可以将其交给时间。

来源：InfoQ

标签： ssd gpu tlc 存储系统镇岳

本文地址：http://news.43b.com.cn/a/1283848.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐