摘要:在典型的AI工作流程中,数据是怎么流动的呢?其实有几个标准步骤,包括数据摄取、准备、模型开发、调整以及最终优化等阶段。每一个步骤对存储的要求不一样,工作负载的特性也不一样。只有了解了AI工作负载的特性以及其不同阶段特定的存储需求,才可以为AI集群选择合适的存储
在典型的AI工作流程中,数据是怎么流动的呢?其实有几个标准步骤,包括数据摄取、准备、模型开发、调整以及最终优化等阶段。每一个步骤对存储的要求不一样,工作负载的特性也不一样。只有了解了AI工作负载的特性以及其不同阶段特定的存储需求,才可以为AI集群选择合适的存储产品。
存力建设离不开高性能、高密度、高可靠性的SSD产品。比如,在数据准备、训练、Checkpoint、推理等阶段,对容量密度要求不高,但对读写性能有较高要求,这时候就更适合高性能的PCIe 4.0或者是PCIe 5.0的TLC盘,比如Solidigm的第一款PCIe Gen5 SSD产品D7- PS1010/PS1030系列。另外Solidigm的D5- P5460以QLC的成本做到类似TLC的性能特性,也比较适合这样的应用。而在数据摄取和存档阶段,则应该更多关注大容量和顺序写入的性能,对大容量需求更大。这个时候,大容量QLC盘非常适合,比如Solidigm的P5- P5336高性能QLC SSD就非常合适。
上图是一个典型的AI集群部署方案以及对应的数据流动示意图。绿色是GPU的算力服务器,棕色是NAND SSD缓存层,蓝色的是OSS高密度存储,不同颜色展示了不同的工作负载,各个阶段的数据是这样流动的。
AI集群非常关注能耗。通常讨论性能和能耗,很容易想到每瓦能实现的性能值,也就是能效比。为AI集群所准备的SSD,需要有非常优异的能效比,需要专门为AI的工作负载做优化。
▲Solidigm D7-PS1010的高效性能
Solidigm的第一款PCIe Gen5 SSD产品D7- PS1010/PS1030系列在各个主要的工作负载下性能都有40%~50%的提升。但除了性能之外,它的能效比也很惊人。图3是一个蛛网图,有各种各样典型的工作负载,用紫色标出来的数据准备(P)、训练(T)、Checkpoint(C)等等,各种各样典型的工作负载,紫色的是Solidigm的D7- PS1010,在各种各样的工作负载里都展现了很好的能效比。
▲122.88TB QLC SSD所需空间大约是HDD的十五分之一
不仅如此,Solidigm推出的122.88TB的D5- P5336数据中心SSD也是目前行业里容量密度最高的SSD。相比于传统的HDD JBOD或者替换它的TLC SSD JBOF方案,采用122.88TB的D5- P5336的存储系统可以将空间占用减少为原本的四分之一或者八分之一,在总功耗、散热、电力和空间方面都有很出色的表现。
AIGC的火热,对以传统HDD为主的存储基础设施带来巨大的挑战,以美国的数据中心为例,其性能、密度、可扩展性等都有很大问题。另外就是可靠性,因为HDD在使用一段时间之后,会逐渐出现失效率高的情况,当有很大AI集群的时候,逐渐增高的失效率就会带来更多的维护和暂停,这对数据中心的整体效率影响非常大。通过大容量的SSD的部署,可以解决一部分这类问题。
▲QLC大幅提升AI数据中心能效
在容量密度、性能、可靠性和能效方面,QLC相比HDD有着显著的优势,强大的存储性能可以提高AI开发的性能和可靠性,同时节省很多电力和空间。在北美市场,因为电力供应和空间更加紧张,需求更加迫切,这种替代已经开始形成一定规模。可以说,今年是数据中心中,QLC替代HDD的元年。现在国内大厂也已经开始考察使用大容量SSD来替代HDD的可行性。
▲大容量SSD可以释放更多电力给GPU
对于大型AI数据中心来说,其不同设备消耗的电能分配比例如图7。如果用TLC+HDD混合存储方案,存储会消耗20%的电;如果用纯TLC方案,会消耗8%;如果用大容量纯QLC方案,则只会消耗3%左右。节省出来的电,就可以支持更多GPU的部署。
MC:QLC会不会为了更大的容量而放弃一些可靠性?
倪锦峰:不会,我们的质量、可靠性都是严格按照JEDEC标准来生产的。P5336、P5620、P5520和PS1010的质量可靠性标准、MTBF(平均无故障工作时间)等都是一样的。而且122TB的大容量QLC SSD对可靠性的要求反而更高。因为需要一整片晶圆才可以做一片SSD,所以对电容、电阻、电感、接口等的选型要求更高。
MC:推出昂贵的122.88TB的SSD产品之后,客户在更大容量和更具性价比之间会怎样选择。
倪锦峰:算力服务器更需要高性能,对容量要求不高;存储系统有客户认为容量越大越好,61.44TB还不够,122TB还不够,现在就期待256TB的产品,这样空间和电力就可以省下很多。所以,客户实际遇到的瓶颈,会导致他对存储的需求很不一样。我相信在其他国家发生的对于电力和空间利用率的高要求,未来在中国也会出现类似情况。目前国内有很多大厂已经在这方面加大资源投入了。
MC:122.88TB的P5336是PCIe 4.0,以这个接口、性能水平来讲,为什么说持续写5年都写不穿?
倪锦峰:即使换成PCIe 5.0接口也写不穿,因为随机写和接口没有关系,但顺序写,大概4.5年就会写穿了,如果采用PCIe5.0接口甚至会更快。我们想要转变一下大家的观念。大家以前觉得QLC是寿命不行,很快就写穿了,其实并不是这样的,你要考虑工作负载是什么样子的。比如闪充盘一般只能写500次或者300次,但是想想看,每个人的闪存盘买来之后,会不会每天往里面写入东西?更多的可能是,第一遍都没写满过。
来源:微型计算机