居安思危:具身智能产业的数据存力危思

B站影视 电影资讯 2025-05-20 08:29 2

摘要:随着产业的爆发,具身智能企业所需要的基础设施将面临一个建设高潮,而我们需要警惕的是,从存力角度来看,在此前一轮智算建设热潮中所凸显的一些结构性问题,如存算比严重不合理、存储子系统性能前置升级空间不足,性能无法满足行业需求等,应当成为这一领域的“危思”而得到高度

“具身智能”和“智能机器人”首次出现在了今年的政府工作报告中,这一产业出现大爆发的最确定性因素已经具备。

毫无疑问,这一领域将成为中美争夺全球AI创新策源地的竞争中,继大模型和自动驾驶之外的第三个二十年级别的超长赛道。

甚至,如果和目前如火如荼的自动驾驶赛道相比,具身智能领域发展到2030年的规模,或将是自动驾驶赛道规模的三倍。

随着产业的爆发,具身智能企业所需要的基础设施将面临一个建设高潮,而我们需要警惕的是,从存力角度来看,在此前一轮智算建设热潮中所凸显的一些结构性问题,如存算比严重不合理、存储子系统性能前置升级空间不足,性能无法满足行业需求等,应当成为这一领域的“危思”而得到高度重视和妥善解决。

——导语

01

踩过的坑,不要再踩

根据Allied Market Research数据,自动驾驶的全球市场规模预计2030年将达5570亿美元;而根据IDC预测,到2030年全球具身智能市场规模将达1.5万亿美元,年复合增长率(CAGR)达25%,是前者的三倍。

埃隆·马斯克的计算方式更为夸张,他曾经表示,从终局来看,假设未来会形成100亿台机器人的市场,按2万美金一台,会形成200万亿美元的终局大市场。

而对于业内人士来说,具身智能板块,将会如同苹果产业链、特斯拉电动车产业链一样,形成一个超大规模的产业链体系。

国内的研究机构也注意到了这一趋势,2025年的中国人形机器人生态大会中特别设立了“生态链卓越企业”的奖项,曙光存储成为这一奖项的得主;这并非偶然,因为在赛迪《中国分布式存储市场研究报告(2025)》中,曙光存储已经成为具身智能存储市场份额第一,同时连续两年在AI存储市场份额第一。

这也并非幸致——具身智能加速发展的核心动力,是大模型的快速进步。如在“大脑”方面,大语言模型的飞速发展,推动着机器人从传统的规则控制模式向自主学习模式转变;在“小脑”方面,通过引入机器学习技术后,机器人能够更加精准地感知、采集和理解周围的环境信息,实时构建更高精度的空间模型。

但这也对具身智能行业的基础设施提出了极大挑战,这一行业的形态决定了对大模型的拥抱热切程度,而随之而来的就是超大规模数据的处理和存储问题。

“具身智能将是一个超级吃存力的赛道”,曙光存储副总裁张新凤说:“这一领域的数据特征可以用4个‘超’来形容——超大规模的训练数据、超多模态的数据采集、超多终端的数据反馈、超级依赖计算机仿真能力,这一切产生的数据压力都将传到具身智能领域基础设施的存储子系统上,对先进存力和建设标准的需求都是空前的”。

如果你和笔者一样参观过国内某头部人形机器人企业,就不难理解这一点——这家企业拥有一个堪比体育馆体量的训练中心,被分为无数的“格子间”。每个格间中都有专人负责某一个拆解动作的训练,其数据采集涵盖6类本体7大典型场景,日均采集数万条数据……而在另一家头部企业,为了及时传送采集数据,甚至要动用卡车去运输硬盘。

但这样的情景只是问题的A面,B面则是中国具身智能产业仍处于极早期,行业集中度很低。具体来说,头部企业企业所占市场份额不足20%,而每年新增数百家创业企业,使得行业更为分散。

“就目前而言,中国具身智能赛道的集中度不高、参与主体体量偏小,所以拥有千卡以上的智算集群的企业并不太多,很多问题也没有暴露出来”,业内人士认为:“这恰好是一个非常好的时机,使得具身智能企业可以吸取此前各类智算中心建设中的经验,如存算比严重不合理的现象,让新的企业不必再踩已经被踩过的坑”。

02

“超级隧道”通向具身智能的未来

曙光存储提出的 “超级隧道HyperTunnel”不是一个产品,而是一套系统化方法论,并真实具象于产品和技术之中。例如,分布式全闪存储中的“五级加速”就是这种理念的成果,这项独特能力也帮助曙光存储连续两年拿下中国AI存储市场第一……这种体系化的性能天花板还留有很高的空间,将持续为客户、同时也为曙光存储的性能提升指明进化方向。

如前所言,具身智能的训练、推理和计算机仿真中,具有“超大规模的训练数据、超多模态的数据采集、超多终端的数据反馈、超级依赖计算机仿真”等特性,这意味着其对于存储子系统的要求极高。

而曙光存储的AI存储方案能够在这一领域拥有很高的市占率,说明了其无论是技术性能上,抑或是性价比上,都处于行业领先地位。

但这并非朝夕可至,它在曙光存储从20年前开始独立研发底层的分布式文件系统之时,就已经埋下了种子。

曙光存储并没有颠覆存储系统的基本架构,但在这个前提下,它集中实现了由无数微创新组成的极致优化,这种优化的幅度之大,其实已经相当于某种程度上的颠覆。

针对AI领域的特性,曙光存储提出了“超级隧道”的技术理念。可以说,这种理念是曙光存储当前的核心技术创新之一,它的特点之一,就是具有广泛的AI亲和性。

“隧道”亦可以理解为“通路”,“超级隧道”则可以理解为对于存储中数据流动和处理的极致优化,通过硬件与软件的深度协同优化,为泛AI赛道的存储子系统提供了构建高效、低时延数据传输路径的解决之道。

例如,当前先进存储的一大趋势,就是尽量减少存储操作对于CPU的开销,让数据“绕开CPU走”。所以,“超级隧道”中采用了XDS技术,这一技术实现了将数据直接加载到GPU中,提高训练过程中数据集的加载及处理速度。

更具象的说,曙光存储的XDS技术创新还体现在不仅支持GPU,也支持多款算力端智能芯片直接存取数据,从而简化了存取过程,降低了CPU与缓存压力,更节省了硬件资源。

存算一体,也是一个智算行业一直在无限逼近但仍有极大创新空间的领域,曙光存储则在AI节点中采用了BurstBuffer技术以实现这一理念,它利用服务器的NVMe盘来缓存数据,使之接近于内存的效果但容量却大很多,可以缓存大量数据,进而能够保证海量数据不用跨网络访问存储,仅此一项就可以把读取性能提高几倍甚至十倍以上。

“超级隧道”中还有许多令人惊叹的微创新,该架构为每个CPU核配备独占资源,构建起从网卡到CPU再到硬盘"一杆子插到底"的“超级隧道’。

这里看似在谈硬件,实际由软件逻辑层面实现——也就是从微控视角对数据进行切分,使得不同逻辑空间关联的硬件资源相互隔离,就像构建了多条垂直“隧道”,I0数据从入到出,整个过程都在同一“隧道”内完成,实现数据就近访问,大大提升了性能。

具身智能的研发,一大特征是需要整合视觉、触觉、语言等多模态数据,例如人类操作视频、仿真训练测评、三维空间信息等,这些数据格式多样、体量庞大,对存储系统的容量和读写速度提出更高要求。

更重要的,是不同数据需要不同的协议支持。为了充分发挥先进存力的融合属性,曙光存储支持了业界几乎最全面的多种存储访问协议,使得异构数据无需格式转换即可一路畅通,避免数据跨存储系统复制带来的各种弊端。

在产品层面的打造上,曙光存储也做到了极致性能。在分布式产品中,以2U规格机型为例,实现了190GB/s 带宽+500万 IOPS的超高性能,在同类别产品中处于断层式领先。

而在集中式存储产品中,通过建立无锁化的数据IO“超级隧道”,曙光存储的FlashNexus实现了全球性能第一,即基于32控能实现3000万IOPS性能+202微秒响应时延(基于百控则可实现亿级IOPS),用于对性能最苛刻的推理环境中,为AI推理的向量数据库、KV Cache长文本存储等需求提供了更优方案。

事实上,尽管人形机器人始终是大众眼中最有代表性的具身智能产品。但事实上,具身智能可以包括一切封装了智能能力的实体硬件,人形机器人目前占比仅仅10%左右——而从“低空经济”的主角无人机到“智慧交通”领域的自动驾驶,再到工业领域的流水线机器人、物流领域的分拣机器人、医疗领域的手术机器人,都可以看作是具身智能的子集,这也间接反映出了这一领域对存储产品的需求之大和市场天花板之高。

基于助力多模态大模型、AI智能体的持续进化,曙光存储已经为人形机器人的发展做出了贡献——智元机器人作为具身智能的明星企业,近期发布了多款商用人形机器人新品,而在智元机器人快速迭代的背后,除了算力与算法平台的支撑,更少不了曙光存储提供的智存产品——ParaStor分布式全闪存储,实现数据存储管理与算力系统的高度匹配,加速了机器人的智能开发。

曙光存储在具身智能领域的道路,其实才刚刚开始。

03

何为最佳存力实践?

在文章的第一部分,我们曾经谈到,具身智能领域的存储增量需求天花板很高,但行业整体仍处于早期阶段,这更为前置部署最佳存力实践提供了良好的空间。

更具体的说,最佳存力实践是一个复合型概念,它的大前提是合理的存算比,小前提是极致的存储性能,充分发挥算力效率,呈现一体两面的关系。

数据统计显示,目前大模型算力成本约占整个成本的25%,而数据清洗、预处理等工作,在不算数据存储硬件的情况下,就已经占到成本的22%。从这个角度看,合理的存算比投入,在大模型时代越来越重要。

即使是一些新建的智算中心,虽然硬件投入庞大,但存储投资与算力需求不匹配,存算比仅为0.42TB/GFlops,远低于美国1.11TB/GFlops的标准。其中较有典型性的代表,是美国橡树岭国家实验室,其超算中心Frontier的存算比达11PFlops:7PB,通过分布式存储架构和高速网络(10TB/s带宽)实现了高效调度,充分发挥了整个系统的性能。

存算比的不合理,既有过度追求算力规模导致的投资结构失衡的宏观问题,也有技术与需求脱节的微观问题,它并非朝夕可以改变,而是必须通过长期的、优秀的产业实践,用实实在在的结果来改变人们的观念。

当然,问题的另一面是,要达到合理的存算比,并非一味依赖增加存储的投资就可以解决,更具体也更重要的是,必须精心选择高性能、且能有助于发挥整个AI基础设施整体能力的存储产品,才是上佳之道。

现在,尽人皆知的是AI算力芯片昂贵、缺货、一卡难求,但相对少人知道的是,即使芯片性能受限,如果与先进的存储子系统搭配,同样可以达到甚至超越预期的性能。

例如,在曙光存储的集中式存储设备中,通过建立无锁化的数据IO“超级隧道”,可以实现推理时延降低80%;在分布式全闪存储中,通过“超级隧道”的理念延伸,依靠“五级加速”和“三级协同”,能够实现4倍提升AI训练速度,赋予AI极致性能体验;应用前述的190GB/s+500万IOPS的分布式存储设备,能够把模型训练的迭代频次从“月”提升到“周”。

更值得注意的是,追求高性能也并非一味求贵求好,反而应该追求的是“适宜”,特别是目前中国具身智能智能行业的主体大部分是创业公司,在激烈的竞争中,这些创业公司的生存之道,是要考虑怎么样去善用每一块钱,而不是堆砌更多昂贵的硬件来拉低性价比。

曙光存储就提供了这种务实的选择,如分布式存储ParaStor S6000,采取了闪存盘和机械硬盘结合的混闪架构,实现1.44PB/框存储密度,通过冷热数据智能分层,在整个模型训练生命周期中有效降低20%存储成本,但并不以性能的损失为代价。

事实上,不只在具身智能领域,更广泛的共识是——建立先进的AI基础设施,已经是国运之争。

而在地缘政治矛盾加剧的背景下,中国拥有全栈自主AI体系的重要性不言而喻,而在这种压力和竞争格局中,中国如果有几家如曙光存储这样能够进行底层技术创新并取得世界级成果的存储企业,是中国AI发展的幸事。

但在具体层面,在很长一段时间里,数据爆炸将继续扩展,将对存储上限不断的提出挑战,曙光也必须不断的技术创新来满足新的需求,存储行业将面临一个快速发展期,而对核心技术的掌握是决定意义的。

来源:胡说成理

相关推荐