摘要:随着人工智能、边缘计算等场景需求爆发,SSD凭借其高性能、高可靠优势,更适配AI场景需求,且可降低超大规模数据中心TCO(总拥有成本),已成为AI存储方案首选。但在实际应用中,SSD一直因使用寿命短而面临规模化困境。经过产业上下游持续十余年的探索攻关,谷歌、M
随着人工智能、边缘计算等场景需求爆发,SSD凭借其高性能、高可靠优势,更适配AI场景需求,且可降低超大规模数据中心TCO(总拥有成本),已成为AI存储方案首选。但在实际应用中,SSD一直因使用寿命短而面临规模化困境。经过产业上下游持续十余年的探索攻关,谷歌、Meta等在2022年提出的灵活数据放置(Flexible Data Placement,FDP)技术成为公认解决SSD寿命短问题的理想路径。然而由于实现门槛极高,FDP技术产品化、规模化应用进程推进迟缓。
近日,浪潮信息推出基于最新FDP技术的SSD产品,突破FDP技术落地中智能流量控制、硬件资源动态隔离、应用场景兼容优化等关键难点,将SSD寿命提升2.5倍,每PB使用成本减少71%,降低数据中心存储TCO,以稳定高效的性能保障AI训练、大数据分析等高负载业务顺畅运行,为AI应用爆发背景下数据中心降本增效提供强有力的支持。
AI时代SSD需求爆发,但寿命受限导致规模化应用难
随着AI应用在各行业场景深度渗透,AI训练需要实时处理EB级海量数据,自动驾驶、实时翻译等AI推理场景中,对存储系统响应延迟的要求已降至毫秒级。在此背景下,SSD存储凭借微秒级访问速度、超高吞吐带宽以及多队列并发处理能力等显著优势,已成为AI时代数据中心存储的核心基础设施。据IDC预测,全球SSD市场规模将从2023年的580亿美元攀升至2030年的1350亿美元,年均增长率达到12.8%,其中中国市场增速预计达到15.3%。
但在实际应用过程中,SSD内部垃圾回收机制、数据对齐等问题导致SSD使用寿命短、数据中心采用SSD总体成本较高,成为其规模化普及的关键瓶颈。过去十余年,行业先后推出Open channel SSD、ZNS SSD 等技术方案,试图通过优化数据放置策略破解SSD使用寿命困局,但受适配成本与软件生态碎片化等限制,这一问题始终未能真正得到解决。
数据放置技术的发展路线
2022年,Meta、谷歌等行业头部企业聚焦SSD寿命这一核心痛点,创新提出FDP技术设想。作为一种革命性的存储管理架构,FDP 通过主机与 SSD 协同工作,精准区分并隔离存放冷热数据,减少冗余写入,显著延长SSD使用寿命,降低数据中心存储成本,还可通过资源隔离大幅提升I/O性能稳定性,确保AI训练等高并发、大数据量处理等业务高效可靠运行。同时相比以往方案,FDP可兼容现有的生态系统,无需大幅修改主机端数据架构或进行复杂的软件适配,总拥有成本(TCO)可进一步下降,因此成为业内公认解决SSD寿命难题的破局之道,自提出后存储各界都对这一技术展开了深入探索。然而实际研究中却遇到极高的技术实现门槛,导致FDP技术产品落地进程缓慢:
FDP技术原理
■ 难点一:跨层级指令精确执行难。主机给SSD下达的数据管理指令需要经过操作系统I/O栈、NVMe驱动层、PCLe传输层等多层传递,并最终要求在SSD控制器中纳秒级响应、高精度执行,尤其是在突发数据写入高峰期,必须保证重要的数据流优先处理,不受后台垃圾回收抢占或其他操作干扰,始终能满足预设的指令要求。
■ 难点二:资源隔离与效率平衡难。为满足100%故障隔离要求,FDP SSD设计时需要完全隔离CPU、DRAM带宽等关键资源,防止某个存储单元出错时故障扩散;但同时又需要保证整体存储资源利用率,避免因物理隔离、资源碎片化带来的存力浪费,这对产品架构设计、功耗管理及可靠性验证提出极高要求。
■ 难点三:双工作模式适配兼容难。从客户业务侧需求来看,AI训练、金融交易等场景通过FDP模式可更充分发挥硬件性能,而日志归档等顺序写入场景则使用传统模式更具性价比,因此同一套FDP SSD固件需同时支持两种工作模式,一是FDP模式下严格遵循主机“数据放置建议”,将冷/热数据精准写入SSD的不同物理层,解决擦除延迟对热数据写入的潜在阻塞。二是传统模式下则需自行判断数据冷热属性,并据此动态优化GC、磨损均衡与块管理策略,避免预测偏差导致的性能波动或寿命损耗。
突破SSD寿命难关,浪潮信息推动FDP技术规模化应用落地
浪潮信息自2020年开始针对SSD寿命局限性展开研究,近日成功突破FDP产品化落地的技术瓶颈,重磅推出基于灵活数据放置技术的全新FDP SSD,以突破性的任意位置写入能力彻底解除了顺序写入的限制,将SSD寿命提升2.5倍,以常规7.68T的SSD为例,传统SSD的总写入量为14PB,而采用FDP技术后总写入量可大幅提升至35PB,同时每PB使用成本减少71%,显著AI时代数据中心存储TCO,为用户核心业务高效稳定运行提供可靠保障。
//智能流量控制,保障关键业务永不卡顿
在共享的FDP存储池中,多个数据流同时写入难免“争抢车道”,对此,浪潮信息在主机侧创新性地引入了精细化流量控制系统。实现像设置“VIP通道”一样,为不同重要性的数据流(如实时交易流 vs 后台备份流)设定写入速度的最高/最低阈值。这意味着,即使在高负载下,核心业务数据流也能获得有保障的带宽和优先处理权,确保用户关键业务永远响应及时。
//100%故障隔离,实现可靠性与效率平衡
浪潮信息通过多重建组(RG)架构,在SSD固件层实现了真正的硬件级隔离。每个RG独占专用的控制器算力(CPU)、高速缓存(DRAM)、硬件加速引擎,甚至物理NAND闪存通道,在保证资源利用效率的同时充分满足故障域隔离要求,这就好比给每个租户/应用分配了专属的“独立电梯和仓库通道”,彼此完全物理隔离,为企业多租户运营管理提供了更可靠、更灵活的解决方案,有效降低运维复杂度与潜在风险。
//自研智能引擎,FDP与传统应用场景双优兼容
面对FDP所需的革命性数据管理方式,浪潮信息深度重构SSD固件核心算法,包括垃圾回收、磨损均衡、块管理和元数据引擎。一方面,完美执行FDP的“数据放置建议”,最大化发挥SSD潜力,大幅提升数据处理效率;另一方面,具备超强兼容模式,当遇到未适配FDP的传统应用时,能自动切换到优化算法,保障其性能依然流畅稳定,有效降低因系统升级导致的业务风险,减少用户数据管理和系统运维成本投入。
浪潮信息通过一系列技术创新实现FDP技术规模化应用落地,成功突破了长期制约SSD大规模应用的核心寿命瓶颈,为数据中心在AI数据洪流时代提供了更智能、更可靠、更具成本效益的存储新选择。未来,浪潮信息将持续深耕技术创新与优化升级,不断推动数据存储技术向更高效率、更低成本的方向迈进,为数字时代的数据基础设施建设注入持续动力。
来源:百科技展示