Megatron-LM：万亿模型训练的基石，制霸大型语言模型训练场！

B站影视内地电影 2025-09-16 17:10 4

摘要：一直以来，大模型千卡训练技术都被视作各大大模型厂商的秘密，但是随国内DeepSeek-R1 的开源带着行业集体转向开源，近期随着月之暗面发布K-1.5、K-2《KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS

一直以来，大模型千卡训练技术都被视作各大大模型厂商的秘密，但是随国内DeepSeek-R1 的开源带着行业集体转向开源，近期随着月之暗面发布K-1.5、K-2《KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS》以及智普AI 发布GLM-4.5《GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models》论文中开源的Slime 大规模分布式训练框架，基本都使用了英伟达开源的Megatron-LM 训练框架.

在 K-1.5 的技术报告中,RL 的训练过程如下：

在rollout阶段，中央主控协调的rollout工作器通过与模型交互生成轨迹，产生对各类输入的响应序列。这些轨迹随后存储在replay buffer中，通过打破时间相关性来确保训练数据集的多样性和无偏性。在训练阶段，训练工作器利用这些经验更新模型权重。通过这种循环过程，模型能够持续从行为中学习，并不断调整策略以提升性能。

对应的软件部署栈如下：

A) Checkpoint Engine负责管理vLLM进程生命周期，提供HTTP API以触发vLLM操作。系统采用etcd服务管理的全局元数据系统来广播操作和状态，确保整体一致性和可靠性。

B) Megatron-LM 执行数据加载、数据并行、模型并行（张量并行、MoE 并行、流水线并行）操作

C) 训练和推理混合部署互为Sidecar 在同一个Pod 中，实现了从训练到推理阶段不到一分钟

D) vLLM 执行checkpoint 的数据轨迹生成

从kimi 开源的K2 旗舰模型参数达到1T 规模，该训练架构支持万亿参数基本没有什么问题。

GLM-4.5 的技术报告中，开源了Slime 训练框架 https://github.com/THUDM/slime/tree/main

在项目的scripts 目录下，开发了支持Qwen系列、Deepspeek、GLM-4.5 等的训练脚本。Slime 的整体架构如下：

A) Training (Megatron-LLM)：负责模型的主训练流程，从Data Buffer读取数据，训练完成后将模型参数同步到rollout模块。

B) Rollout (SGLang + router)：根据训练的需求生成新数据（含reward和verifier），将这些数据存储至Data Buffer。

C) Data buffer：作为数据管理模块，负责管理prompt初始化、自定义数据和rollout生成的数据。

回看Kimi K 系列，GLM-4.5 系列，其训练架构的数据流向思路大体上是一致的；这是由大模型的RL 算法目前由GRPO 以及演变算法决定的，回顾GRPO 算法提出的DeepSeekMath 这篇论文：

old 模型在输出问题——答案的多个采样：

策略模型在更新完成本轮参数之后，将新的checkpoint 赋值到采样的old模型，继续下一轮模型参数的更新。

参考reference Model 是基准模型，参数一直保持不变，用KL 散度限制不要和base模型参数差距不要拉开太大。

Megatron-LM 以其强大的吞吐性，更细计算粒度并行划分，大幅提升单位时间机器的计算峰值，已经事实成为LLM 训练的开源框架基石（至于为什么不用deepspeed，这方面官方有个详细的性能对比测试，随着模型参数规模加大Megatron-LM 完胜）。

来源：AIGC-LANDING

标签：训练模型 kimi checkpoint buffer

本文地址：http://news.43b.com.cn/a/1178342.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!