摘要:然而,风驰电掣的AI正在改变存储的市场地位。伴随人工智能向千行百业加速渗透,数据规模的爆发和数据资产的重估上升为主旋律,推动金融、制造、医疗、科研等领域的数智化进程迈向纵深——作为海量数据的核心载体,存储日益成为不可或缺的主角,为AI的逐步落地保驾护航。
在IT基础设施中,存储的“存在感”一直并不突出,性能、容量、可靠性是其安身立命的“基本修养”,当好配角似乎即是终极使命。
然而,风驰电掣的AI正在改变存储的市场地位。伴随人工智能向千行百业加速渗透,数据规模的爆发和数据资产的重估上升为主旋律,推动金融、制造、医疗、科研等领域的数智化进程迈向纵深——作为海量数据的核心载体,存储日益成为不可或缺的主角,为AI的逐步落地保驾护航。
事实上,AI前行的每一段旅程,都留下了存储蜕变的脚印。在百模混战时期,大模型训练“以快为美”,需要存储提供TB级带宽支撑和百万级IOPS的性能表现;在行业大模型风起云涌的阶段,过于分散的专业化数据亟待整合,要求存储具备强大的数据跨域调度能力;在大模型场景化应用遍地开花的节点,存储必须提升数据安全和可持续性访问水平,才能为高精度模型和高质量数据集构筑坚实底座。
显而易见,在AI新时代,衡量存储产品与解决方案的标尺已不同于以往,存储市场的既有格局也将发生重大变化。但令不少行业客户困惑的是,在做出购买决策之前缺乏权威的标准体系和专业指导,找到擅长与AI共舞的存储合作伙伴殊非易事。
近日,MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩,有助于行业客户拨云见日。其中,浪潮信息分布式存储平台AS13000G7表现出众,在3D-UNet和CosmoFlow两个模型共计8项测试中5次折桂,堪称AI存储新赛道的开路先锋。
如果说“打榜”是最好的试金石,能有效解决客户选型的燃眉之急,那么围绕AI的存储创新则要经历更长时间的磨砺和考验,淬炼之后的宝剑方能拥有无坚不摧的锋芒。
打造AI存储的新标尺:基准测试贴近真实场景
在传统IT领域,各种机构发起的打榜竞赛层出不穷,其实际含金量呈现出边际递减的态势。与之不同的是,由于AI发展速度非常迅猛,令人信服的基准测试并不多见,市场空白亟待填补。
就存储而言,虽然业界每年都会定期发布IO500榜单,但契合AI场景的专业定义与评测方法却付之阙如。作为影响力最广的国际AI性能基准评测组织,MLPerf™于2023年推出全球首个且唯一的AI/ML存储基准测试,旨在以架构中立、具有代表性和可重复的方式,打造衡量多元AI工作负载下存储系统能力的新标尺。
据浪潮信息分布式存储方案架构师Lance SUN透露:与此前的V0.5版本相比,今年的V1.0版本在保留3D-UNet的基础上,增加了Cosmoflow和Resnet50模型,并基于GPU利用率高达90%或70%的条件,以带宽和支持的模拟加速器数量为关键性能指标,评估单客户端或集群模式下存储系统的综合表现。
不难看出,MLPerf™ V1.0版的存储基准测试具备权威性与专业性,且更贴近AI应用的真实场景,因此吸引了全球13家领先存储厂商和研究机构积极参与。在本次测试中,浪潮信息采用3台AS13000G7搭建分布式存储集群,搭载ICFS自研分布式文件系统,在3D-UNet和CosmoFlow两大评测任务中共获得五项最佳成绩。
值得关注的是,3D-UNet是图像分割领域最具影响力的AI模型,存储设备只有具备高带宽、低时延等特性,才能保证GPU始终处于高利用率状态。在图像分割3D-UNet多客户端2评测任务中,浪潮信息为10个客户端264个加速器提供了高达360GB/s的集群聚合带宽,单个存储节点带宽达到120GB/s,最大限度释放出算力潜能。
与3D-UNet类似,CosmoFlow也是典型的数据密集型应用场景,其参数量在10万到20万之间,越小的模型对时延要求越高。在宇宙学分析CosmoFlow单客户端2和多客户端2评测任务中,浪潮信息存储分别达成18 GB/s和52 GB/s的带宽最佳成绩,成为AI for Science领域的新标杆。
探索AI存储的创新路径:两大平台ד三高”方向
从某种意义上讲,基准测试相当于AI存储加速进化的助推器,但在广阔无垠的新赛道上,要想实现可持续健康成长,必须找到扎实的平台与澎湃的动力。
以平台分类的角度看,软件定义存储和阵列存储是当下市场的两大系统。前者主要面向AI大模型中的海量、多模态非结构化数据,追求极致的性价比;后者重点满足AI推理及生产应用中,客户对存储可靠性和低时延的需求。
浪潮信息存储产品线副总经理刘希猛认为,这两大产品线都应围绕AI进行深度转型,打造人工智能时代高性能、高效率、高韧性的存储平台——覆盖数据全生命周期,实现多协议数据融合、多样系统协作与集成,进而构建完善的存储解决方案。
高性能是AI存储破局的利器,致力于满足混合AI负载对存储读写带宽、IOPS以及低时延的多元要求。在带宽方面,浪潮信息研发数控分离架构,通过客户端并行EC,极大降低数据流转拷贝,较上一代架构写性能和读性能分别提高110%、60%;在IOPS方面,通过对大小IO的智能识别和分类治理,实现小文件性能提升5倍,并结合缓存预读技术使训练加载速度提升10倍。
高效率是AI存储创新的基石,多管齐下解决全生命周期的数据难题。浪潮信息分布式存储产品部副总经理安祥文认为,存储技术创新不能脱离具体场景,必须深入理解AI训练各阶段面临的挑战,才能找到最优路径。例如:在数据归集阶段,数据来源广泛、格式多样,存储需根据数据源提供不同的接入协议;在数据准备阶段,通常采用大数据Spark组件和Clip等工具进行数据清洗和标注,若存储仅支持单一协议,既耗费时间也浪费空间。
针对上述痛点,浪潮信息分布式存储支持非结构化协议融合,避免不同协议下数据的拷贝,最高可节省50%的数据存储空间;同时,借助全局元数据共享技术实现统一的单一命名空间,支持跨平台、跨形态、跨地域的全局数据管理,在高速池上可实现10亿文件秒级检索。
高韧性是AI存储长远发展的保障,必须构建全方位的防护体系。浪潮信息一方面通过故障的快速恢复、故障前的精准预测,有效降低系统异常的性能影响,确保服务的连续性;另一方面,强化数据保护与安全防护能力,保证高质量数据的完整、一致和持续可访问。
勾勒AI存储的未来图景:仰望星空与脚踏实地并重
根据权威研究机构发布的报告,AI带来的增量存储市场预计在2023至2033年保持20.7%的复合年增长率,2033年的市场规模有望突破1380亿美元。
浪潮信息存储产品线副总经理刘希猛也看好AI对存储市场的拉动效应,他认为AI产业化与产业AI化是核心动力——AI产业化主要涉及模型训练、语料生产和算法优化,产业AI化则覆盖千行百业的数智化进程,二者相辅相成将驱动存储市场迈上更高台阶。
前景光明,但道路依然曲折,增强研发储备方能行稳致远。浪潮信息分布式存储研发部总经理张在贵表示,为了满足AI训练不断升级的需求,浪潮信息一直加大研发投入,在整体架构、软硬协同等层面不断谋求突破,业已取得丰硕成果。
以某互联网客户大模型的存储实践为例:该客户原平台运行大模型,每次断点恢复都超过10分钟,每2~4小时一次续训,导致GPU近10%的时间在等待,造成算力浪费。浪潮信息针对客户模型特点和存储所需性能做了方案优化,增加全闪提升性能,将断点续训时间降低到分钟级;基于融合存储方案,归集准备数据可直接用于训练推理,使数据汇集准备时间节省30%。
据了解,浪潮信息的AI存储解决方案已在大型智算中心、科研平台等严苛场景得到广泛应用,并赢得主流行业客户的高度认可。在仰望技术创新星空的同时,不忘脚踏实地的奋斗, AI存储的未来之路才会越走越宽广。
来源:IT创事记