摘要:在数据采集环节,企业面临着诸多存储挑战。存储系统需要高效地存储和调度大规模的数据,包括结构化和非结构化数据,可能包含文字、图片、视频、音频等多种多样的数据类型,用户迫切希望拥有一个大容量、低成本、高可靠的数据存储底座。
编者按:
近日,益企研究院联手希捷发布了,该白皮书深入剖析了 AI 技术发展给数据存储带来的机遇与挑战,为各行业在 AI 浪潮下的存储决策提供了重要参考。
益企研究院将在近期摘取该白皮书的部分内容,以分享白皮书中的更多关于AI时代的存储洞察。
本期是系列精选的第二部分,从白皮书原文第一章中摘选,作者为益企研究院。
伴随着大模型的爆发和人工智能技术的快速迭代,计算架构、算法框架、数据供给正面临深刻变革,生成式 AI 正在重新定义存储的内涵。
算法突破、算力紧俏的背后,是数据需求的激增。
数据、算法、算力,并称人工智能“三驾马车”。
随着大语言模型的爆发,公众的注意力常常集中在算力规模(如 GPU 卡数量)上,但业内先驱们早已认识到数据才是最难补齐的短板。
模型规模每增加 10 倍,运算量需求增加 100 倍。10T 规模的模型需要当前百 B 级模型的千倍甚至万倍的算力或训练时间。
出 自 DeepMind 发 表 的 论 文《Training Compute-Optimal Large Language Models》,2022 年 3 月
典型AI应用带来的存储增长趋势
面对算力成本急剧上升和优化算力利用率的迫切需求,存储系统的构建也越来越重要。
大模型的全生命周期主要可以分为三个阶段,包括数据的采集、训练 / 微调、推理。
微软总结的 AI 模型生命周期,中间三个都属于模型的训练阶段,而数据采集、预训练和微调是对存储层要求较高的环节
在数据采集环节,企业面临着诸多存储挑战。存储系统需要高效地存储和调度大规模的数据,包括结构化和非结构化数据,可能包含文字、图片、视频、音频等多种多样的数据类型,用户迫切希望拥有一个大容量、低成本、高可靠的数据存储底座。
在模型训练环节,训练数据集加载慢、易中断、数据恢复时间长等问题是大模型训练中的常见难题,存储系统必须足够快速地为 AI 算力芯片提供训练所需数据。一方面,分布式文件系统可以将数据分散存储在多个节点上,提高数据的并行访问能力;另外一方面,大容量、高性能的 AI 存储系统能够极大缩短断点续训时间,保障 AI 集群的算力可用度处于较高水平,提升算力应用效率。
在模型推理环节,推理过程是一个复杂的存储系统工程,关键是需要能够存的多、传的快、性价比高。数据的不断生成会促成更多的数据存储,而更多的数据存储又进一步推动数据生成和人工智能的演变,形成一个良性循环。
存储成本也是企业需要考虑的重要因素。随着数据量的不断增长,存储成本也会相应增加。因此,企业需要寻找一种低成本的存储解决方案, 既能满足数据存储的 需求,又能控制成本。
存储技术的挑战与机遇
在 AI 技术迅猛发展的背景下,存储容量和性能的提升显得尤为重要。AI 应用所产生的数据不仅规模庞大,而且类型多样,包括结构化数据、非结构化数据以及流数据等。这些数据的存储和管理对存储系统提出了更高的要求。
为了应对这一挑战,包括分布式存储和云存储在内的各种新型存储技术应运而生。存储容量和性能的提升是 AI 技术发展的重要支撑。
高速、低延迟的存储性能对于确保 AI 应用的顺畅运行和实时响应至关重要。在 AI 技术的迅猛发展下,存储技术的创新步伐也日益加快。机械硬盘(HDD)与固态存储如 SSD 如何分工合作,满足 AI 应用对高性能、大容量、低功耗存储的需求?
存储系统的智能化
随着人工智能技术的深入发展, 其对存储系统的影响日益显著。智能化存储系统作为 这一趋势的重要产物, 正逐渐改变着传统存储方式的面貌。通过集成先进的机器学习 算法和深度学习模型, 智能化存储系统能够实现对海量数据的智能分析与挖掘,进而优化存储性能,提升数据处理的效率。
智能化存储系统的核心在于其具备的自我学习和自我优化能力。系统能够通过对历史数据的分析,识别出数据的访问模式和特征,从而预测未来的数据需求。基于这些预测结果,智能化存储系统可以自动调整存储策略和布局,以确保数据能够以最优的方式被存储和访问。这种动态调整的能力不仅提升了存储系统的性能,还有效降低了运营成本。
除了优化存储性能外,智能化存储系统还在数据备份和恢复方面展现出强大的实力。智能化的备份和恢复机制不仅提高了数据的安全性,还大大减少了因数据丢失而造成的损失。
智能化存储系统也会在容灾方面发挥着重要作用。高度的自动化和智能化水平,将使得智能化存储系统成为现代企业不可或缺的重要基础设施之一。
算力与存力高效协同
数据规模的增长对存储技术的性能、容量和可靠性提出了更高要求。尤其在大模型训练和推理过程中的数据调度、边缘侧与云端数据的存储,需要大容量、高速、低延迟的存储系统以支撑实时数据处理和分析,大容量的存储技术解决方案成为支撑整个 AI 生态系统的关键。
在整个生成式 AI 落地过程中,企业如果希望充分利用 AI 能力,需要首先建立一套高效、可靠的数据存储与管理系统,确保数据价值被充分 发掘且高效利用算力。譬如,针对非结构化数据的处理,向量数据库成为 AI 大潮当中的热点。
计算存储协同促进AI落地
AI 应用需处理和分析的数据规模日益庞大,使得算力不断增加。但算力规模增加的同时,集群的可用性明显下降,数据的存储与访问速度对系统性能和效率产生直接影 响。此外,随着 AI 应用数据规模和复杂性的持续增长,对存储技术的容量、速度和 可靠性提出了更为严苛的要求。越来越多的应用场景开始将 AI 算法与存储介质紧密结合,以实现更为智能化的数据处理和存储管理,提升集群的可用度。
根据 Precedence Research 于 2024 年 7 月发布的研究报告, 全球 AI 驱动存储市场预计将从 2024 年的 287 亿美元,激增至 2034 年的 2552 亿美元,年复合增长率(CAGR)相当喜人。越来越多企业正在积极寻求更智能、更灵活的数据管理解 决方案。
AI 驱动存储市场规模发展 2024 ~ 2034(来源: Precedence Research)大模型场景下,数据存储面临的挑战,将不仅仅是传统意义上容量增加、性能提升的 线性挑战,计算和存储相互协同,或直接基于 GPU 架构,或与 GPU 服务器密切协同,专为 AI 数据处理而优化,可以提升训练集群可用度,降低推理成本,提升用户体验。
来源:DT时代