六边形战士再进化:镇岳510创新解决方案满足新兴AI存储需求

B站影视 电影资讯 2025-09-25 19:21 1

摘要:AI时代,人们普遍能够感受到数据量的激增,显性的矛盾是有限的存储空间和成本约束下,绝大多数生成的数据无法被保存。而更深层次的矛盾则是如何挖掘数据的价值,毕竟,只有数据所能产生的价值超过存储的成本,数据才值得保存下来。

AI时代,人们普遍能够感受到数据量的激增,显性的矛盾是有限的存储空间和成本约束下,绝大多数生成的数据无法被保存。而更深层次的矛盾则是如何挖掘数据的价值,毕竟,只有数据所能产生的价值超过存储的成本,数据才值得保存下来。

AI驱动存储范式变革

大语言模型的出现普遍提升了数据的热度。首先是模型预训练对数据的渴求,根据斯坦福大学的统计,在过去15年中,用于训练的数据集规模大约每8个月增长一倍。目前新的模型的数据集已经逼近百TB级别,除了需要不断搜刮(近乎于穷尽)人类有史以来的公开数据,还开始探索利用合成数据。其次,随着企业应用AI创新的能力提升,通过微调、后训练等方式发掘行业、企业专有数据价值,构建垂直领域模型成为越来越普遍、越来越频繁的操作。再次,RAG成为自有模型部署不可或缺的关键搭档,不论是存量数据,还是增量信息,都可以有效改善大语言模型的推理输出质量。这些数据利用方式的变化让传统的数据冷热分层模式发生了改变,数据的热度普遍性地提升,热数据与温数据的规模变大。

AI应用改变了数据价值,也推动了AI存储的需求趋于复杂化、多样化。

数据范式:AI改变了数据利用的形式,也带来了更多样的数据范式,包括向量、张量等。譬如RAG推动传统数据库的转变,提升了业界对向量数据库的关注度,也提升了企业对温存储的需求。为了改善推理成本,KV Cache的持久化也成为今年的一个热点,将高性能、大容量存储阵列的需求从训练阶段扩展到推理阶段。高扩展性:AI从训练前的数据准备,训练后的微调、推理各个阶段,所需要访问的数据需要尽可能的广泛,其中有交集的部分规模日趋庞大。如果为每个阶段、实例创建数据集会带来过于频繁的数据移动操作。因此主流方式是创建跨集群甚至跨域的AI数据湖,容量巨大(可达EB级),且具有高吞吐量。绿色节能:随着存储集群规模的激增,其能耗、空间占用成为非常可观的数字。这也是智算中心越来越偏好部署全闪存储节点的最关键原因。只有SSD能够让每U机架空间的存储密度达到PB级。数据安全:规模化部署及集中使用,对数据安全也提出了很高的要求,必须防止非授权访问、数据泄露等。存储可靠性指标应大于99.9999%,以确保多种业务的稳定运行。另外,随着数据价值的提升,防勒索等攻击的安全防护需求也变得非常迫切。数据编织:数据是应用的中心,在不同用例、节点访问数据的时候,尽量避免数据的流动,避免不必要的格式转换,控制数据流动的开销。减少数据的无谓复制、移动,可以让存储系统的性能得以充分发挥,并节约能耗、寿命等。极致性能:昂贵的AI算力需要尽可能充足数据流填满,对存储系统提出了极致的性能要求。从性能密度角度看,每U空间应该能提供50GB/s以上的带宽、100万IOPS以上的访问能力。为了减少数据访问延迟及协议开销,应能让GPU直接访问存储(譬如NVIDIA的GPUDirect Storage)。

六边形战士如何迎战AI业务挑战

平头哥发布的高性能SSD主控镇岳510已经陆续应用在多个国内生态合作伙伴的产品中。这是一款深谙云计算场景核心需求的主控,其亮点是4μs超低时延,比业界主流时延水平要低30%以上之前业内的测试也验证了这一亮点,譬如首款采用镇岳510主控的商业化PCIe 5.0 SSD,忆恒创源PBlaze7 7A40,可以在队列深度仅为1的情况下,获得20万IOPS的稳态随机写性能。平头哥通过大量定制硬件加速模块及算法创新实现了超低时延,具体技术细节可以参考益企研究院的技术文章。

基于镇岳510的SSD提供340万IOPS超高随机读性能和250万IOPS随机写。随时读功耗低于10W,根据官方数据,能效比可达到42万IOPS/W。顺序读写带宽方面,分别为14GB/s和10GB/s。这些指标在PCIe 5.0 SSD都属于顶级水准。

NAND介质方面,镇岳510支持16通道,支持1xx层/2xx层 TLC/QLC,支持ONFI 4.2和Toggle 5.0接口,在4KB IU配置下可以支持32TB存储容量。对于超高存储密度的场景,可以通过使用较大IU支持更大容量——这也是目前大容量QLC SSD的常规操作。

可靠性方面,JEDEC JESD 218规范中定义企业级SSD的UBER10-16业内主流企业级SSD一般会做到UBER≤10-17。而镇岳510的标准是UBER≤10-18优于JEDEC规范两个数量级。

基于镇岳510这种兼具低时延、高能效、高带宽、高可靠性、低成本、大容量等优势的“六边形战士”主控打造的高性能SSD,在面对当下热门的AI存储场景时,可以提供什么价值呢?

训练场景

对于训练场景,高带宽、低时延的SSD首先会受到训练机头的青睐,典型的8卡DGX需要配置8块高性能SSD作为缓存盘,尽可能快地为GPU提供训练数据,并在尽可能短的时间内让Checkpoint数据落盘,减少GPU等待。对于全闪存储节点,需要高容量满足大数据量的需求,并需要高带宽高IOPS性能密度、达到更好的能效,以在有限的机架空间占用下,为尽可能多的GPU节点提供尽可能高的平均性能,并在Checkpoint恢复时为热备节点提供尽可能大的带宽,尽量缩短训练中断时间。

推理场景

对于推理场景,SSDRAG场景的影响最为直接,并逐步承担KV Cache卸载的需求。在RAG场景中,SSD首先影响向量数据库的数据访问延迟;其次,近似最近邻(ANN)搜索所需要的索引最初设计是在内存(HNSW),使得相似性搜索成为计算密集型操作,但内存容量(通常单节点只能做到1TB级别)限制了向量和索引的规模,进而限制了RAG向量数据库的规模(10亿条文本的数据集对应的向量和索引就可能占用1TB的内存),解决这种矛盾的有效方法是降低向量的维度,将索引转移到SSD上(如微软的DiskANN),从而降低内存占用支持更大规模的RAG数据集,提高检索质量SSD提供尽可能高的读IOPS有利于提升整体的QPS(每秒查询数)。

随着大语言模型推理愈发重视长上下文规模,尤其是长思维链,对话过程中消耗的Token数激增,导致KV Cache容量迅速增长。对于高性能推理节点,在提供高并发时,KV Cache所占用的显存容量已经超模型权重。传统模式下,一旦显存占满,较旧的KV Cache便被清理,当会话继续时,需要调用上文重新计算、填充以再次生成KV Cache。为了减少算力和能耗的浪费,近期业内开始研究将KV Cache卸载到GPU可访问的、较低成本的介质上,如主内存或全闪存储。由于主内存容量有限,且跨节点的访问仍依赖网络,目前最受重视的方案是全闪存储,高网络带宽、高读写速度有利于KV Cache的跨节点卸载与恢复。

KV Cache卸载的性能需求与训练阶段的CheckPoint比较类似,但KV Cache的卸载更频繁、恢复概率更高,且存储周期更长,对全闪的容量规模和成本平衡更为敏感。

从一力破万法到技多不压身

采用镇岳510主控的SSD已经上市近一年时间,在性能堪称PCIe 5.0时代的顶流,但平头哥也没有故步自封,仍在推动镇岳510主控适配更多样化的场景。

向上,镇岳510支持pSLC NAND(Pseudo SLC NAND,伪SLC NAND)。相对常见的TLC NAND,pSLC除了获得耐用度的大幅度提升(十倍以上),还进一步提升了IOPS。以随机读的操作时延为例,TLC NAND通常为40μs,而pSLC模式下可降低至20μs。如果与曾以高耐用度、高随机性能的傲腾相比,镇岳510毕竟是将pSLC带入了PCIe 5.0时代,随机读带宽可以提升17%,随机写也略有提升设置为pSLC模式的SSD可以承担过去傲腾高耐久性所擅长的读写缓存工作,配合硬盘阵列使用

相对于目前主流的TLC SSD+硬盘的混闪模式,pSLC+硬盘的组合可以提供更高的读写IOPS,非常适合大语言模型训练前的数据准备阶段。数据准备是一种全局的、频繁随机读写的操作。这个阶段的数据比较“原始”,价值不高,用基于TLC SSD的全闪存储过于昂贵,而QLC SSD又不适合承受频繁的随机写,因而常使用成本较低的混闪阵列。用pSLC替代TLC SSD,可以进一步提升数据供给效率,减少数据等待期间的算力浪费。至于pSLC容量较小的弱点,在常规的混闪场景中可能会导致读缓存热数据命中不足的问题,但在数据准备阶段是可以规避的,因为访问的全局性导致更大容量的读缓存没有实际收益。此时,pSLC远高于TLC的耐久度更为关键,而略高于TLC的读写性能则是锦上添花。

向下,镇岳510正在驱动ZNS+QLC的存储解决方案发展。镇岳510是支持QLC NAND的,生态合作伙伴可以基于这个主控推出大容量QLC SSD,以适应AI应用对高密度、高能效存储的需求。但平头哥想做的不仅仅是搭上当下大容量QLC SSD关注度的顺风车,而是进一步降低QLC SSD的使用成本,改善QLC SSD的性能与使用寿命ZNS被业内视作QLC SSD的终极解决方案,可以最大化发挥QLC SSD的性能,并规避其随机写性能不足、耐用度较低的弱点。镇岳510所支持的ZNS协议可以让数据根据上层业务优化写入位置,将不同业务安排到独立的Zone当中,且对齐NAND介质Block粒度。数据在Zone内是严格顺序追加写的,当某业务的数据需要删除时,可直接清除对应的Zone。这种设计消除了传统SSD中的垃圾回收(GC)操作,写放大降到最低,并提高了磨损均衡效率。镇岳510的通用核是RISC-V多核处理器,最高频率1.6GHz,有充足的处理能力维护ZNS SSD的Zone分区状态。

结语

镇岳510初露峥嵘之时,以超低时延和领先的随机写性能获得了很高的关注度,在测试中也获得了优秀的长尾时延表现,体现了大型云厂商背景对服务水平的深刻理解。目前采用镇岳510主控的存储厂商已有忆恒创源、得瑞领新、佰维存储、长江万润等。平头哥在不断拓展国内上下游合作伙伴的同时,也针对新兴AI存储需求拓展镇岳510的能力优秀的存储解决方案不仅仅是用领先的性能指标和QoS能力包打天下还要积极适配不同类型介质满足细分场景的需求。尤其是在大模型训练成本高昂、推理需求激增,运营要求日趋精细的背景下,不同阶段、不同场景对计算、网络、存储的需求各不相同,积极应用包括以存代算在内的新思路、新技术,将不断提升存储在AI基础设施中的价值

来源:DT时代

相关推荐