摘要:在人工智能技术快速演进的浪潮中,大模型正从数据匹配迈向具备逻辑推理的“深度思考”阶段。这一能力让AI能够理解复杂问题,完成多步推理,并在数学、代码等多个领域展现巨大潜能。日前,潞晨科技携手昇腾团队,联合推出强化微调技术的昇腾优化方案,为深度思考模型的落地注入强
在人工智能技术快速演进的浪潮中,大模型正从数据匹配迈向具备逻辑推理的“深度思考”阶段。这一能力让AI能够理解复杂问题,完成多步推理,并在数学、代码等多个领域展现巨大潜能。日前,潞晨科技携手昇腾团队,联合推出强化微调技术的昇腾优化方案,为深度思考模型的落地注入强劲动能。
复杂思维链任务是检验大模型“深度思考”能力的重要场景,它要求模型能够完成多步推理、保持逻辑一致性,并在跨领域问题中展现出更强的泛化能力。
此次潞晨团队的强化微调技术,创新性地引入了解耦架构与Producer-Consumer模式,实现三大突破:
训练效率提升:流水线式与异步式强化学习并行执行,极大提高吞吐效率;
系统灵活性:解耦资源依赖,打破负载瓶颈,实现与主流推理框架的顺畅对接;
高可扩展性:支持任务资源灵活扩展,异构硬件训练无缝适配,整体利用率大幅提升。
在架构设计上,团队摒弃传统Colocated(同位架构)模式,转而采用Disaggregated(解耦式架构)架构,使生成与训练环节分布于不同资源集群,显著提高弹性与独立性。
与此同时,团队进一步将Producer-Consumer Pattern(生产者-消费者模式)引入强化学习训练。作为一种经典的软件设计模式,Producer-Consumer用于在两个进程或线程之间管理资源、数据或任务的传递。在本次优化中,该模式被扩展至大规模强化学习任务,实现数据采样与训练的彻底解耦,支撑GRPO等分组、自适应的训练策略。
在这一模式中,训练核心流程被划分为Rollout(推理/采样)和Training(训练)两部分。推理引擎(如vLLM)充当Producer(生产者),与环境交互并收集数据,再将结果写入Shared Buffer(共享缓冲区);训练框架(如Colossal-AI)作为Consumer(消费者),持续读取缓冲区数据完成策略更新,并将更新后的模型反馈给推理引擎进入新一轮rollout。通过共享缓冲区作为桥梁,推理与训练能够独立运行,而异步RL机制则进一步提升了重叠度,最大限度避免资源闲置与浪费。
潞晨与昇腾联合完成了从训练、推理到调度的全链路优化:
训练加速:Colossal-AI多维并行方案显著提升模型训练效率;
推理加速:vLLM Ascend推理引擎实现高性能低延迟推理;
调度与通信:Ray完成NPU调度与HCCL通信管理,支持复杂分布式训练需求。
实验结果显示,在Qwen2.5-7B模型上,数学与代码任务均呈现reward(奖励值,在强化学习重用于衡量模型行为好坏的信号)持续上升,并在Math500与code contest测试中稳定提升;经过昇腾优化后的Qwen2.5-7B preview版本,也在AIME24/25等基准中取得明显进步,训推环节整体提速超过50%。
团队还对比测试了Colossal-AI与其他主流框架在训练性能上的效果。选取Qwen2.5系列不同大小的模型,并使用不同的sequence length(序列长度)测试效果,以保证对比的全面性。
由于RL系统的复杂性,团队选取了一种较为通用的e2e_tps(端到端吞吐率_每秒处理Token数)方式进行衡量,并选择GBS(全局批量大小) 32/64作为每轮的数据进行测试。
e2e_tps计算方式:
(response_length_mean+prompt_length_mean)×global_batch_size×n_samples_per_prompt/world_size /time_all
在昇腾上进行性能测试时,团队将 Consumer 定义为训练实例,Producer 定义为推理实例。为更准确衡量训推效率,同时记录 rollout 时间和 train 时间。对于训推分离的框架,整体耗时在训练与推理较为均衡时可近似为两者的最大值;而对于训推共卡的框架,整体耗时则约等于 rollout time + train time + context switching time,其中 context switching time 包含训练与推理之间的切换开销。
测试结果如上图所示。在昇腾上不同模型、不同序列长度下的端到端 TPS 对比中可以看到,Colossal-AI 在各项测试中均显著优于现有框架,在更长序列下依然保持了高的效率。整体来看,Colossal-AI 的优化在推理和训练并行方面带来了 20%–30% 左右的性能提升。
随着强化微调技术的持续演进,深度思考类模型正迎来前所未有的广阔舞台。潞晨科技将继续携手昇腾等合作伙伴,围绕以下方向展开深入合作:
大模型训练加速:基于 Colossal-AI 的并行训练与内存优化技术,进一步适配昇腾平台,助力主流模型实现高效训练与微调。
智算一体机优化:在昇腾硬件上,联合优化视频生成和多模态模型的推理加速方案,打造更高性价比的一体化智算设备。
AI Agent 应用落地:依托昇腾在推理性能上的优势,将视频制作、多模态应用的智能体领域推向电商、自媒体等更广泛的实际应用场景。
行业联合创新:面向制造、医疗、出海等重点行业或方向,推动昇腾的端到端解决方案落地,探索垂直行业大模型的最佳实践。
通过全方面优化的创新实践,双方将加速更多行业拥抱智能新时代。
当模型具备深度思考的能力,人工智能不再只是工具,而是推动产业升级与知识创新的全新引擎。
此外,昇腾的深度推理模型及相关框架代码也已开源至魔乐社区,为开发者与产业伙伴提供坚实的技术底座与开放生态,加速深度思考模型的应用与普及。
开源地址:
来源:华为计算