摘要:一直以来,大模型千卡训练技术都被视作各大大模型厂商的秘密,但是随国内DeepSeek-R1 的开源带着行业集体转向开源,近期随着月之暗面发布K-1.5、K-2《KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS
一直以来,大模型千卡训练技术都被视作各大大模型厂商的秘密,但是随国内DeepSeek-R1 的开源带着行业集体转向开源,近期随着月之暗面发布K-1.5、K-2《KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS》以及智普AI 发布GLM-4.5《GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models》论文中开源的Slime 大规模分布式训练框架,基本都使用了英伟达开源的Megatron-LM 训练框架.
在 K-1.5 的技术报告中,RL 的训练过程如下:
在rollout阶段,中央主控协调的rollout工作器通过与模型交互生成轨迹,产生对各类输入的响应序列。这些轨迹随后存储在replay buffer中,通过打破时间相关性来确保训练数据集的多样性和无偏性。在训练阶段,训练工作器利用这些经验更新模型权重。通过这种循环过程,模型能够持续从行为中学习,并不断调整策略以提升性能。
对应的软件部署栈如下:
A) Checkpoint Engine负责管理vLLM进程生命周期,提供HTTP API以触发vLLM操作。系统采用etcd服务管理的全局元数据系统来广播操作和状态,确保整体一致性和可靠性。
B) Megatron-LM 执行数据加载、数据并行、模型并行(张量并行、MoE 并行、流水线并行)操作
C) 训练和推理混合部署互为Sidecar 在同一个Pod 中,实现了从训练到推理阶段不到一分钟
D) vLLM 执行checkpoint 的数据轨迹生成
从kimi 开源的K2 旗舰模型参数达到1T 规模, 该训练架构支持万亿参数基本没有什么问题。
GLM-4.5 的技术报告中,开源了Slime 训练框架 https://github.com/THUDM/slime/tree/main
在项目的scripts 目录下,开发了支持Qwen系列、Deepspeek、GLM-4.5 等的训练脚本。Slime 的整体架构如下:
A) Training (Megatron-LLM):负责模型的主训练流程,从Data Buffer读取数据,训练完成后将模型参数同步到rollout模块。
B) Rollout (SGLang + router):根据训练的需求生成新数据(含reward和verifier),将这些数据存储至Data Buffer。
C) Data buffer:作为数据管理模块,负责管理prompt初始化、自定义数据和rollout生成的数据。
回看Kimi K 系列,GLM-4.5 系列,其训练架构的数据流向思路大体上是一致的;这是由大模型的RL 算法目前由GRPO 以及演变算法决定的,回顾GRPO 算法提出的DeepSeekMath 这篇论文:
old 模型在输出问题——答案的多个采样:
策略模型在更新完成本轮参数之后,将新的checkpoint 赋值到采样的old模型,继续下一轮模型参数的更新。
参考reference Model 是基准模型,参数一直保持不变,用KL 散度限制不要和base模型参数差距不要拉开太大。
Megatron-LM 以其强大的吞吐性,更细计算粒度并行划分,大幅提升单位时间机器的计算峰值,已经事实成为LLM 训练的开源框架基石(至于为什么不用deepspeed,这方面官方有个详细的性能对比测试, 随着模型参数规模加大Megatron-LM 完胜)。
来源:AIGC-LANDING
