华为版《黑客帝国》首次亮相：训推复杂AI前先“彩排”，小时级预演万卡集群

摘要：数字化风洞，一个在正式训推复杂AI模型之前，可以在电脑中“彩排”的虚拟环境平台。

就在今天，华为首次亮相了一套“虚”的技术——

数字化风洞，一个在正式训推复杂AI模型之前，可以在电脑中“彩排”的虚拟环境平台。

这套有种《黑客帝国》意味般的技术（都是通过虚拟世界预演现实），是由华为马尔科夫建模仿真团队构建，可以小时级预演万卡集群方案。

而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤，是因为华为研究团队发现，超过60%的算力浪费在硬件资源错配与系统耦合上。

于是，就像汽车设计师用风洞测试新车性能一样，华为通过这个平台在电脑里模拟AI大模型训练和推理的过程，便提前发现问题并优化配置。

一言蔽之，为的就是避免浪费时间和算力。

更具体来看，如果把运行大模型类比成开一辆高性能赛车，那么当下的痛点就主要集中在三点：

训练阶段

类似猛踩油门，但算力、内存、通信如果搭配不当，效率会暴跌；

推理阶段

任务差异极大，既要短问答（像城市超跑），又要长文本生成（像越野耐力赛），硬件很难同时满足；

万卡集群

好比管理一个庞大车队，要避免“堵车”、“故障”，确保长时间稳定运行。

而数字化风洞在这个过程中起到的作用，就像是一位让AI算力“少踩坑、跑得更快更稳”的智能调度专家。

并且是对上述三大痛点逐一击破的那种。

Sim2Train小时级自动寻优

训练大模型这件事可以说是越来越复杂，例如由于参数量越发庞大，就会对硬件提出更高的要求，传统的调度策略没法充分发挥它们的潜力。

因此，华为团队提出了一个叫做Sim2Train的仿真平台，用来模拟训练过程，找到最优的硬件配置和训练策略，让昇腾设备跑得更快、更高效。

这个平台主要的发力点在两个方面。

首先是模拟训练过程。

具体的方法叫做动静态融合的大规模训练集群建模仿真，可以通过模块化拼装AI任务流程，像搭积木一样灵活构建复杂模型，快速分析计算、内存和通信的资源消耗。

再结合对昇腾硬件的深度适配能力，静态规划与动态调优双管齐下，精准提升大规模训练集群的运行效率。

其次是自动寻找最优方案。

它可以实现面向昇腾平台的模型结构智能搜索与优化，做到模型性能与功能能力的最优均衡。

面对CloudMatrix昇腾超节点复杂拓扑结构，Sim2Train还可以做到芯片级、拓扑级与负载级的全栈架构建模与策略联合优化。

并且基于实时数据采集与自动反馈校准机制，完成对硬件的细粒度抽象建模，全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

△Sim2Train训练仿真系统框架

Sim2Infer分钟级动态加速

它是一个多层级的推理系统建模仿真，核心能力可以分为五点：

1模拟负载特征

把不同模型和输入数据的计算、内存访问、通信需求用数学模型表示出来。比如，MoE 模型中，不同专家被激活的频率、数据在不同设备间的传输量等。

2分析硬件架构

从芯片微架构（如3D Cube张量加速引擎）到整个集群的网络拓扑（如多台服务器怎么互联），全方位模拟硬件性能。

3描述部署策略

支持配置各种推理策略，比如数据并行（多个设备处理不同数据）、张量并行（拆分计算任务）等，看哪种策略在昇腾上效率最高。

驱动仿真运行

用 “离散事件” 模拟推理过程，比如某个算子何时开始计算、数据何时传输，精确计算整个推理流程的耗时。

5自动搜索优化

给定约束条件（如延迟不超过20ms），自动搜索最优的模型结构、部署策略和硬件配置。

除此之外，Sim2Infer还通过软硬协同的建模仿真驱动一系列的推理系统创新优化。包括：

建模分析系统参数与模型设计因素的关联关系，提出昇腾推理亲和的MoE模型结构建议。

大EP场景MoE模型的最佳推理部署方案寻优。

通过多维代价模型建模，从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新。

△Sim2Infer推理仿真系统框架

Sim2Availability秒级故障定位

除了训推之外，如何保证大模型在诸如万卡集群上稳定、有效运行，也是一个关键问题——高可用。

为此，同样是以仿真的形式，华为的解法便是Sim2Availability。

就像用电脑模拟天气一样，这个框架通过建立马尔科夫模型，在计算机里 “虚拟” 出一个集群，模拟各种故障发生，检测及后续影响和恢复的过程，从而分析如何提升可用度。

Sim2Availability在做模拟的关键环节包括：

故障 “生成器”

模拟各种硬件故障，比如NPU出错、内存错误、光模块闪断等，还能模拟多种故障同时发生的情况。

故障 “探测器”

模拟如何检测这些故障，比如通过算法判断网络是否变慢、硬件是否异常，检测的准确性会影响恢复效率。

故障 “影响分析”

比如NPU故障会让训练中断，需要重启；光模块故障会让网络传输变慢，导致训练速度下降。

”恢复 “策略库”

针对不同故障设计不同恢复方法，比如 “Step级回滚”（只回退一步训练数据）、“进程级恢复”（只重启有问题的进程）、“全量恢复”（整个作业重启）等。

这些环节可以高效精准构建集群系统对计算、存储、网络的“状态监控”，通过马尔科夫链刻画系统的随机行为，将系统离散化为有限状态（如“健康”、“亚健康”、“故障”等），并基于事件驱动构建状态转移模型，从宏观视角掌控全局硬件系统状态。

△Sim2Availability高可用仿真系统框架

以上便是关于华为“数字化风洞”的大致内容，更多详情可戳。技术报告地址：https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/SystemSim/ascend-cluster-infra-sim.md>End

>>>

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《太空与网络》，观察，记录，传播，引领。

>>>

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、稻子、赵栋策划部：杨艳、若㼆、李真子视觉总监：董泞专业摄影：冯小京、宋伟设计部：顾锰、潘希峎、杨小明行政部：姜河、林紫业务部：王锦熙、瑾怡原创文章转载授权、转载文章侵权、投稿等事宜，商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，杂志订阅，
· 会议活动部负责人：乔颢益、许克新、董今福· 本平台签约设计公司：一画开天（北京）文化创意设计有限公司