美团龙猫LongCat-Flash详细报告

B站影视 内地电影 2025-09-01 10:35 1

摘要:LongCat-Flash 是美团龙猫智能体体系中的关键一环,承载着从任务执行到系统协同的能力跃迁。本文将从架构设计、能力演进到落地场景,系统拆解 LongCat-Flash 的技术逻辑与产品价值,为理解企业级智能体的构建路径提供参考样本。

LongCat-Flash 是美团龙猫智能体体系中的关键一环,承载着从任务执行到系统协同的能力跃迁。本文将从架构设计、能力演进到落地场景,系统拆解 LongCat-Flash 的技术逻辑与产品价值,为理解企业级智能体的构建路径提供参考样本。

LongCat-Flash 是美团 LongCat 团队开发的一个拥有 5600 亿参数的混合专家 (MoE) 语言模型。该模型旨在实现计算效率和高级代理能力。其核心创新包括:

零计算专家(Zero-computationExperts):实现动态计算预算分配,根据上下文需求激活186亿至313亿参数(平均270亿),从而优化资源利用。快捷连接MoE(Shortcut-connectedMoE,ScMoE):扩大计算-通信重叠窗口,显著提升推理效率和吞吐量。

LongCat-Flash 采用全面的大模型扩展框架,结合超参数迁移、模型增长初始化、多管齐下的稳定性套件和确定性计算,以实现稳定和可重现的训练。模型在 30 天内完成了超过 20 万亿 Token 的训练,推理速度超过 100 TPS,每百万输出 Token 成本为 0.70 美元。通过大规模预训练、有针对性的中训和后训(包括推理、代码和指令,并辅以合成数据和工具使用任务),LongCat-Flash 培养了代理智能。

LongCat-Flash 作为非思维型基础模型,在众多领先模型中表现出高度竞争力,尤其在代理任务中表现出色。LongCat-Flash 的模型检查点已开源,以促进社区研究。

一、主要贡献

大型语言模型 (LLM) 的快速发展证明了模型规模和计算资源扩展的有效性。LongCat-Flash 旨在通过计算效率和代理能力这两个协同方向,推动语言模型的前沿发展。

实现计算效率的可扩展架构设计零计算专家机制:根据Token的重要性动态分配计算预算,激活186亿至313亿参数(总计5600亿),平均每个Token激活约270亿参数。采用PID控制器调整专家偏差以确保计算负载一致。快捷连接MoE(ScMoE):扩展计算-通信重叠窗口,结合定制的基础设施优化,实现大规模训练和高吞吐、低延迟的推理。有效的模型扩展策略超参数迁移:通过理论保证,将小规模代理模型的最佳超参数配置迁移到目标大模型。模型增长初始化:从一个预训练的半规模模型开始,通过层堆叠技术扩展参数,提高性能。多管齐下的稳定性套件:包括原则性的路由器梯度平衡、隐藏z-loss以抑制大规模激活以及精调的优化器配置。确定性计算:确保实验的精确可复现性,并支持训练过程中SDC(静默数据损坏)的检测。多阶段代理能力训练流程基础模型构建:设计两阶段预训练数据融合策略,集中推理密集型领域数据。中训阶段:增强推理和编码能力,并将上下文长度扩展至128k。后训阶段:设计多代理合成框架,根据信息处理、工具集复杂性和用户交互三个维度定义任务难度,生成需要迭代推理和环境交互的复杂任务。

整体表现:

LongCat-Flash 在可扩展架构设计、训练策略和基础设施协同作用下,实现了高训练吞吐量和低推理延迟。模型在 30 天内完成 20 万亿 Token 的预训练,可用性高达 98.48%。推理部署效率超过 H800 上 100 TPS,每百万输出 Token 成本 0.7 美元。

评估结果:

LongCat-Flash 在 ArenaHard-V2 上得分 86.5,TerminalBench 上得分 39.5,τ2-Bench 上得分 67.7,在通用领域、编码和代理工具使用方面展现出强大的能力。为缓解现有开源基准测试的潜在污染,团队构建了两个新基准:Meeseeks(模拟真实人机交互评估多轮指令遵循能力)和 VitaBench(利用真实商业场景评估解决复杂现实任务的能力),LongCat-Flash 在这些基准上均表现出色。

二、架构

LongCat-Flash 采用了一种新颖的 MoE 架构,具有两个关键创新:

1.零计算专家 (Zero-Computation Experts)

MoE 块中包含零计算专家,允许 Token 根据其上下文重要性动态消耗可变计算资源。通过自适应专家偏差控制平均计算负载。

动态计算资源分配:模型通过激活不同数量的FFN专家(以及Z个零计算专家,它们只返回输入而不产生额外计算成本)来实现动态计算。这使得模型能将更多计算资源分配给具有更高上下文重要性的Token,从而在相同计算容量下实现优越性能。计算预算控制:通过一个PID控制器引入专家特定偏差项,动态调整路由分数,以确保FFN专家和零计算专家之间的平均选择比例保持在目标范围内。这有助于在预训练期间将平均激活专家数量稳定在预期值附近,同时保持激活参数的显著可变性。负载均衡控制:除了语料库层面的负载均衡,还引入了设备层面的负载均衡损失,以进一步防止EP组内序列级别的极端不平衡。

2.快捷连接 MoE (Shortcut-Connected MoE)

每个层集成两个多头潜在注意力 (MLA) 块和多个异构前馈网络 (FFN) 块。从第一个 MLA 输出直接到 MoE 块的快捷连接被采用。

克服通信瓶颈:传统MoE模型中,专家并行会导致通信延迟成为瓶颈。ScMoE通过引入跨层快捷连接,重新排序执行管道,使得前一个块的密集FFN可以与当前MoE层的分发/组合通信并行执行,从而创建更大的重叠窗口。质量中立:训练损失曲线显示,ScMoE架构与基线(无ScMoE)模型几乎相同,证明其执行重排序不影响模型性能。

显著的系统级效率提升

大规模训练:扩展的重叠窗口允许前一个块的计算与MoE层的分发和组合通信阶段完全并行。高效推理:ScMoE实现“单批次重叠”(SBO)管道,将理论上的每输出Token时间(TPOT)减少近50%。它还允许节点内张量并行通信(NVLink)与节点间专家并行通信(RDMA)并发执行,最大化网络利用率。可扩展性的方差对齐设计MLA的尺度校正:采用修正的多头潜在注意力(MLA)机制,引入尺度校正因子αq和αkv,解决非对称低秩分解中固有的方差不平衡问题,确保在模型扩展时注意力得分的稳定性。专家初始化方差补偿:针对DeepSeek-MoE中细粒度专家策略的性能敏感性,提出方差补偿机制,通过一个缩放因子γ抵消专家分割导致的初始化方差减少。模型信息分词器(Tokenizer):采用字节对编码(BPE),在多语言语料库上训练,词汇量优化为131,072个Token,增强了中文处理和数学能力。多Token预测(Multi-TokenPrediction,MTP):作为辅助训练目标,通过单个密集层MTP头在训练中期引入,以提高推理效率(评估中接受率>90%)。模型配置:LongCat-Flash包含28层(不包括MTP层),隐藏状态维度为6144。MLA块使用64个注意力头,每个头维度128。FFN密集路径使用12288中间维度,每个FFN专家使用2048维度。每层包含512个FFN专家和256个零计算专家,每个Token激活12个专家。总参数5600亿,每个Token平均激活约270亿参数。三、 预训练

LongCat-Flash 的预训练遵循三阶段课程:

阶段 1:通用预训练:在约 20 万亿 Token 上训练,序列长度为 8192,建立稳健的基础模型

数据处理:包括内容提取、两步质量过滤和基于MinHash的大规模去重。数据混合策略:采用两阶段调度,逐步增加高质量推理数据(如STEM和代码)的比例,并根据质量和多样性分数进行实例级数据混合。

阶段 2:推理和编码增强:使用数万亿数据进一步增强推理和编码能力

系统化合成数据工作流:通过知识图谱遍历、多阶段迭代细化和双模态生成与验证来优化数据质量和多样性,确保概念复杂性、CoT推理质量和数学准确性。

阶段 3:长上下文扩展:通过在长上下文语料库上训练,将上下文长度扩展到 128k

两阶段扩展策略:第一阶段从8k扩展到32kToken,RoPE基频从1,000,000提高到5,000,000。第二阶段进一步扩展到128kToken,基频提高到10,000,000。训练语料库:基于自然产生的长文本数据(如书籍、小说)和系统组织的代码库数据。训练策略超参数迁移:基于宽度缩放,通过在较小代理模型上确定最佳超参数,然后根据理论缩放规则将其迁移到目标模型。模型增长初始化:从一个预训练的半规模模型(14层)开始,通过层堆叠技术扩展到目标规模(28层),实验显示其优于随机初始化,并能加速收敛。

训练稳定性

路由器稳定性:通过监控路由器权重相似度和梯度范数比(Rg),确保负载均衡损失作为正则化项,而不会压倒语言模型损失。激活稳定性(隐藏z-loss):引入隐藏z-loss以抑制训练期间大规模激活的发生,从而减少数值误差和性能下降风险。Adamepsilon的实际配置:将Adam优化器中的epsilon(ε)参数设置为非常小的值(1e-16),以保持数值稳定性并保留优化器的自适应特性。

数据净化 (Decontamination)

对所有训练数据进行严格净化,通过 13-gram 重叠和语义相似性(使用 BGE-m3 嵌入)检测,防止基准测试集的数据泄露。

评估

LongCat-Flash 基础模型在通用任务、通用推理、数学推理和编码方面表现出色,与 DeepSeek-V3.1 Base、Llama-4-Maverick Base 和 Kimi-K2 Base 等最先进的开源 MoE 模型相比,参数效率更高,性能具有竞争力甚至更优。

四、后训练

LongCat-Flash 采用传统的多阶段后训练框架,以增强模型在复杂推理、编码、代理工具使用任务和通用能力方面的表现。

推理和编码数学:通过“角色(persona)”和“自指令(self-instruct)”范式生成高质量和新颖的数学问题,并进行两阶段答案验证(多LLM一致性选择和推理增强型奖励模型评分)。编码:汇集来自公共数据集、GitHub代码片段和CodeEvol-Instruct方法生成的编码查询,并通过严格的过滤管道和Docker镜像测试用例验证来确保质量。逻辑推理:构建涵盖演绎、假设和归纳推理的逻辑推理数据集,并进行难度管理(通过Pass@k指标和过滤策略),同时关注最终答案的正确性、推理的完整性和清晰度。代理工具使用任务定义:将代理任务定义为通过系统性环境交互解决复杂问题,任务难度归因于信息处理复杂度、工具集复杂度和用户交互复杂度。

多代理数据合成框架

UserProfileAgent:生成用户配置文件,控制对话风格、沟通意愿和信息披露模式。ToolSetAgent:枚举40个领域和1600个应用,构建80,000个模拟工具的广泛工具图,通过随机游走采样子图控制工具集复杂度。InstructionAgent:根据约束复杂度、推理点数量和推理链长度量化推理难度,生成全面描述完整任务的指令。EnvironmentAgent:增强环境信息并引入混淆元素以增加推理复杂度。RubricAgent:构建任务相关的检查清单,并采用滑动窗口评估整个轨迹。ValidatorAgent和DeduplicatorAgent:检查最终任务的质量并去除相似任务。通用能力指令遵循:策划单轮和多轮指令遵循数据集,并通过可验证规则和模型验证确保响应满足所有约束。长上下文:开发三类长序列数据集(阅读理解、表格问答、定制任务),通过聚合相关上下文段落来促进长序列中突出信息的学习,并优化模型在上下文不完整时的拒绝能力以缓解幻觉。安全性:基于Muetal.[2024]的框架开发内容安全策略,将查询分类为40多个不同的安全类别和五种响应类型,并采用两阶段上下文感知数据合成器(查询分类和响应映射与优化)进行训练。评估基准测试:涵盖通用领域、指令遵循(IFEval、COLLIE、Meeseeks)、数学推理(MATH500、AIME24/25、BeyondAIME)、通用推理(GPQA-diamond、DROP、ZebraLogic、GraphWalks)、编码(Humaneval+、MBPP+、LiveCodeBench、SWE-Bench-Verified、TerminalBench)和代理工具使用(τ2-Bench、AceBench、VitaBench)。比较对象:与DeepSeek-V3.1、Qwen3-235B-A22B、Kimi-K2、GPT-4.1、Claude4-Sonnet和Gemini2.5-Flash等非思维型聊天模型进行比较。评估结果:LongCat-Flash在通用领域、指令遵循、数学推理、通用推理、编码和代理工具使用方面表现出卓越性能,尤其在ArenaHard-V2、IFEval、AIME25、ZebraLogic、TerminalBench和VitaBench上名列前茅。在安全性方面,LongCat-Flash在识别和缓解风险(特别是有害和犯罪类别)方面表现出色。五、训练基础设施

训练基础设施的核心设计原则是可扩展性和精确性

数值精度控制与故障检测ULP评估:采用ULP(UnitintheLastPlace)作为指标,量化并缓解浮点误差,确保BF16结果与CPUFP32真值之间的精度。SDC检测机制:实现高效的片上原地运算符重计算机制,特别是在FlashAttention梯度(FAG)的反向计算中,通过位差检测潜在的静默数据损坏(SDC)风险。确定性和性能的内核优化确定性FAG:开发高效的确定性FAG内核,通过有限的额外工作空间以确定性顺序累积Tile,同时通过双缓冲流水线、精调的Tile调度和负载均衡实现1.6倍于原始确定性版本和0.95倍于非确定性版本的性能。确定性ScatterAdd:提出分层归约算法,并行化梯度聚合,实现与非确定性版本相当的性能。优化的分组GEMM:通过双缓冲流水线、对角线Tile和HBM带宽控制进行优化,实现5%-45%的加速。融合GemmAdd:将FP32加法融合到GEMM后处理中,避免中间回写并隐藏加法过程,实现3.12x到3.86x的加速。大规模训练的分布式策略专家并行组(EP):每个EP组包含32个加速器,注意力层采用上下文并行(CP=8),FFN层使用EP分区而不使用TP。ScMoE结构和分块:ScMoE结构使分发/组合通信与单批次中的更多计算重叠,并将MoE层沿Token维度分成两个块,实现与密集FFN计算和彼此之间的重叠。优化通信:采用带流水线的All-gather/reduce-scatter内核,将非重叠分发/组合通信时间比例从25.3%降低到8.4%。V-ZB算法:采用V-ZB算法平衡所有阶段的内存使用,并将峰值内存降低到60GB以下,实现零理论气泡。可靠性和可观测性可用性:异步检查点将训练停顿减少到2-4秒,结合在线关键日志过滤、优化初始化和全面自动化,将恢复时间减少到可观测性:结合细粒度(PyTorchprofiler)和粗粒度(低开销运行时分析)性能分析,以及一个度量平台,用于快速评估模型状态。六、推理与部署

LongCat-Flash 采用模型与系统协同设计,显著提高了吞吐量和降低了延迟。

模型特定的推理优化计算与通信协同:设计了单批次重叠(SBO)调度策略,利用模块级重叠充分发挥LongCat-Flash的潜力,将通信开销隐藏在单个批次内。ScMoE架构还促进了节点内NVLink带宽利用和节点间RDMA通信的重叠。推测解码(SpeculativeDecoding):利用MTP作为草稿模型,通过在后期预训练阶段集成一个轻量级MTP头(单个密集层),实现约90%的Token接受率。同时采用C2T方法,使用分类模型在验证前过滤掉不太可能被接受的Token,以降低验证成本。减少KV缓存:MLA机制(64个头)有效压缩KV缓存,减少存储和带宽压力。系统级推理技术最小化调度开销:采用TVD融合策略将目标前向、验证和草稿前向融合到单个CUDA图中。引入多步重叠调度器,在一个调度迭代中启动多个前向步骤的内核,以隐藏CPU调度和同步开销。

定制内核

MoEGEMM:利用SwapAB技术,将权重视为左手矩阵,激活视为右手矩阵,最大化TensorCore利用率,解决Token计数不足时的填充问题。通信内核:利用NVLinkSharp的硬件加速广播和内交换机归约功能,通过内联PTX汇编实现高效的数据传输,性能优于NCCL和MSCCL++。量化:采用与DeepSeek-V3相同的细粒度块级量化方案(激活每个[1,128]块,权重每个[128,128]块),并基于FPTQ和Super-Expert方法,应用层级混合精度量化,以实现最佳性能-精度权衡。部署与性能测量性能:采用PD-Disaggregated架构独立优化预填充和解码阶段,并实现层级传输以降低TTFT。LongCat-Flash在H800上实现100TPS的生成速度,每百万输出Token成本0.7美元。理论性能:在EP数量为128,每设备批处理大小为96的配置下,LongCat-Flash的理论TPOT为16毫秒,每百万输出Token成本0.09美元,比DeepSeek-V3和Qwen3-235B-A22B有显著理论改进。七、结论

LongCat-Flash 是一个 5600 亿参数的 MoE 模型,其核心创新包括:

上下文感知动态计算机制和快捷连接MoE,在训练和推理中实现高效率。确保稳定大规模训练的集成策略培养LongCat-Flash代理能力的多阶段训练流程,使其能够执行需要迭代推理和环境交互的复杂任务。

LongCat-Flash 作为开源模型发布,旨在推动高效 MoE 架构、高质量数据策略和代理模型开发的研究,促进大型语言模型的社区创新。

本文由 @梦寐ai分享 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

来源:人人都是产品经理

相关推荐