摘要:现阶段,昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台,全面赋能强化学习场景深度训推优化。目前,昇腾CANN已经支持对接开源RL训练框架verl,能够适配GRPO、DAPO、PPO等多种RL训练算法。为充分释放verl在昇腾NPU集群
现阶段,昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台,全面赋能强化学习场景深度训推优化。目前,昇腾CANN已经支持对接开源RL训练框架verl,能够适配GRPO、DAPO、PPO等多种RL训练算法。为充分释放verl在昇腾NPU集群上的训练效能潜力,CANN团队基于Atlas 900 A3 SuperCluster集成MindSpeed与vLLM-Ascend后端框架,面向昇腾集群对DeepSeek R1的强化学习训练流程进行了插件式专项优化,优化范围覆盖模型间调度、训推切换、训练及推理四大核心环节。基于上述优化特性,DeepSeek R1 模型实际负载场景下的RL 训练在Atlas 900 A3 SuperCluster中实现了120TPS/卡的系统吞吐表现,所有适配优化代码均已开源至: https://gitcode.com/cann/cann-recipes-train/tree/master/rl_train/deepseek
集群规模较大时,ray框架串行调度各个训练worker所需的序列化和数据传输开销可能成为RL训练过程中的显著性能瓶颈。为了解决训练任务下发耗时长的问题,CANN团队从任务间共用数据管理、进程间数据流设计两方面入手,设计了TensorCache机制统一管理前后任务之间共用的Device侧数据张量。在保留Host与Device间必要数据传输的前提下提升整体传输效率,消除了原本分钟级别的任务调度时间。
模型间调度性能优化方案解读:
https://gitcode.com/cann/cann-recipes-train/blob/master/docs/deepseek_rl_train_optimization.md#性能优化模型间调度
由于训练与推理的模型分布式并行部署策略不一致,共卡部署场景下RL训练过程通常涉及训练与推理状态切换。针对EP切分,本实践采用基于 AlltoAllV 的专家参数定向路由零冗余通信方案,避免原始方案中通过AllGather聚合所有专家带来的通信量和峰值内存冗余。针对PP/TP切分,本实践采用TP域AllGather+PP域AllToAll的方式替代了原本逐参数做PP域Broadcast和TP域AllGather的方式,有效减少了总通信量和通信次数。
训推切换性能优化方案解读:
https://gitcode.com/cann/cann-recipes-train/blob/master/docs/deepseek_rl_train_optimization.md#性能优化训推切换
本实践集成了MindSpeed训练后端框架,因此训练性能优化策略主要复用了MindSpeed在内存管理、通信优化和计算优化方面的诸多技术,相关优化技术细节可参考MindSpeed官方文档特性介绍:
此外,本实践还实现了old_log_prob免计算特性,旨在通过复用已有前向计算结果减少on-policy训练算法(如GRPO)中的冗余前向计算。
训练性能优化方案解读:
https://gitcode.com/cann/cann-recipes-train/blob/master/docs/deepseek_rl_train_optimization.md#性能优化训练
针对RL训练的推理阶段,CANN团队复用了昇腾NPU在线推理的多种优化技术:算子层面,基于芯片特点和DeepSeek R1模型结构针对性地使能了算子的多流并行,并利用昇腾亲和的NZ数据排列格式存储KV Cache,提升注意力算子计算效率;框架层面,通过TorchAir整图下沉并将推理框架Gloo通信切换到HCCL通信的方式,针对性地解决了算子下发引入额外开销以及推理前后处理Gloo通信耗时长的调度bound等问题。
相关推理性能优化特性可从cann-recipes-infer代码仓获取参考实践:
同时也已经合入vLLM-Ascend开源社区:
推理性能优化方案解读:
https://gitcode.com/cann/cann-recipes-train/blob/master/docs/deepseek_rl_train_optimization.md#性能优化推理
目前,CANN已提供针对DeepSeek R1的RL训练全流程适配优化实践样例:
欢迎各位开发者上手体验!我们将持续推进更高效的大模型强化学习训练平台建设,不断推出具有竞争力的核心特性,诚邀全球开发者一同加入昇腾开源社区参与平台共建、代码贡献以及实践分享,共同在大模型强化学习训练场景中打造更加卓越的用户体验!
来源:华为计算