美团龙猫LongCat-Flash详细报告

摘要：LongCat-Flash 是美团龙猫智能体体系中的关键一环，承载着从任务执行到系统协同的能力跃迁。本文将从架构设计、能力演进到落地场景，系统拆解 LongCat-Flash 的技术逻辑与产品价值，为理解企业级智能体的构建路径提供参考样本。

LongCat-Flash 是美团龙猫智能体体系中的关键一环，承载着从任务执行到系统协同的能力跃迁。本文将从架构设计、能力演进到落地场景，系统拆解 LongCat-Flash 的技术逻辑与产品价值，为理解企业级智能体的构建路径提供参考样本。

LongCat-Flash 是美团 LongCat 团队开发的一个拥有 5600 亿参数的混合专家 (MoE) 语言模型。该模型旨在实现计算效率和高级代理能力。其核心创新包括：

零计算专家(Zero-computationExperts)：实现动态计算预算分配，根据上下文需求激活186亿至313亿参数（平均270亿），从而优化资源利用。快捷连接MoE(Shortcut-connectedMoE,ScMoE)：扩大计算-通信重叠窗口，显著提升推理效率和吞吐量。

LongCat-Flash 采用全面的大模型扩展框架，结合超参数迁移、模型增长初始化、多管齐下的稳定性套件和确定性计算，以实现稳定和可重现的训练。模型在 30 天内完成了超过 20 万亿 Token 的训练，推理速度超过 100 TPS，每百万输出 Token 成本为 0.70 美元。通过大规模预训练、有针对性的中训和后训（包括推理、代码和指令，并辅以合成数据和工具使用任务），LongCat-Flash 培养了代理智能。

LongCat-Flash 作为非思维型基础模型，在众多领先模型中表现出高度竞争力，尤其在代理任务中表现出色。LongCat-Flash 的模型检查点已开源，以促进社区研究。

一、主要贡献

大型语言模型 (LLM) 的快速发展证明了模型规模和计算资源扩展的有效性。LongCat-Flash 旨在通过计算效率和代理能力这两个协同方向，推动语言模型的前沿发展。

实现计算效率的可扩展架构设计零计算专家机制：根据Token的重要性动态分配计算预算，激活186亿至313亿参数（总计5600亿），平均每个Token激活约270亿参数。采用PID控制器调整专家偏差以确保计算负载一致。快捷连接MoE(ScMoE)：扩展计算-通信重叠窗口，结合定制的基础设施优化，实现大规模训练和高吞吐、低延迟的推理。有效的模型扩展策略超参数迁移：通过理论保证，将小规模代理模型的最佳超参数配置迁移到目标大模型。模型增长初始化：从一个预训练的半规模模型开始，通过层堆叠技术扩展参数，提高性能。多管齐下的稳定性套件：包括原则性的路由器梯度平衡、隐藏z-loss以抑制大规模激活以及精调的优化器配置。确定性计算：确保实验的精确可复现性，并支持训练过程中SDC（静默数据损坏）的检测。多阶段代理能力训练流程基础模型构建：设计两阶段预训练数据融合策略，集中推理密集型领域数据。中训阶段：增强推理和编码能力，并将上下文长度扩展至128k。后训阶段：设计多代理合成框架，根据信息处理、工具集复杂性和用户交互三个维度定义任务难度，生成需要迭代推理和环境交互的复杂任务。

整体表现：

LongCat-Flash 在可扩展架构设计、训练策略和基础设施协同作用下，实现了高训练吞吐量和低推理延迟。模型在 30 天内完成 20 万亿 Token 的预训练，可用性高达 98.48%。推理部署效率超过 H800 上 100 TPS，每百万输出 Token 成本 0.7 美元。

评估结果：

LongCat-Flash 在 ArenaHard-V2 上得分 86.5，TerminalBench 上得分 39.5，τ2-Bench 上得分 67.7，在通用领域、编码和代理工具使用方面展现出强大的能力。为缓解现有开源基准测试的潜在污染，团队构建了两个新基准：Meeseeks（模拟真实人机交互评估多轮指令遵循能力）和 VitaBench（利用真实商业场景评估解决复杂现实任务的能力），LongCat-Flash 在这些基准上均表现出色。

二、架构

LongCat-Flash 采用了一种新颖的 MoE 架构，具有两个关键创新：

1.零计算专家 (Zero-Computation Experts)

MoE 块中包含零计算专家，允许 Token 根据其上下文重要性动态消耗可变计算资源。通过自适应专家偏差控制平均计算负载。

动态计算资源分配：模型通过激活不同数量的FFN专家（以及Z个零计算专家，它们只返回输入而不产生额外计算成本）来实现动态计算。这使得模型能将更多计算资源分配给具有更高上下文重要性的Token，从而在相同计算容量下实现优越性能。计算预算控制：通过一个PID控制器引入专家特定偏差项，动态调整路由分数，以确保FFN专家和零计算专家之间的平均选择比例保持在目标范围内。这有助于在预训练期间将平均激活专家数量稳定在预期值附近，同时保持激活参数的显著可变性。负载均衡控制：除了语料库层面的负载均衡，还引入了设备层面的负载均衡损失，以进一步防止EP组内序列级别的极端不平衡。

2.快捷连接 MoE (Shortcut-Connected MoE)

每个层集成两个多头潜在注意力 (MLA) 块和多个异构前馈网络 (FFN) 块。从第一个 MLA 输出直接到 MoE 块的快捷连接被采用。

克服通信瓶颈：传统MoE模型中，专家并行会导致通信延迟成为瓶颈。ScMoE通过引入跨层快捷连接，重新排序执行管道，使得前一个块的密集FFN可以与当前MoE层的分发/组合通信并行执行，从而创建更大的重叠窗口。质量中立：训练损失曲线显示，ScMoE架构与基线（无ScMoE）模型几乎相同，证明其执行重排序不影响模型性能。

显著的系统级效率提升：

大规模训练：扩展的重叠窗口允许前一个块的计算与MoE层的分发和组合通信阶段完全并行。高效推理：ScMoE实现“单批次重叠”(SBO)管道，将理论上的每输出Token时间(TPOT)减少近50%。它还允许节点内张量并行通信(NVLink)与节点间专家并行通信(RDMA)并发执行，最大化网络利用率。可扩展性的方差对齐设计MLA的尺度校正：采用修正的多头潜在注意力(MLA)机制，引入尺度校正因子αq和αkv，解决非对称低秩分解中固有的方差不平衡问题，确保在模型扩展时注意力得分的稳定性。专家初始化方差补偿：针对DeepSeek-MoE中细粒度专家策略的性能敏感性，提出方差补偿机制，通过一个缩放因子γ抵消专家分割导致的初始化方差减少。模型信息分词器(Tokenizer)：采用字节对编码(BPE)，在多语言语料库上训练，词汇量优化为131,072个Token，增强了中文处理和数学能力。多Token预测(Multi-TokenPrediction,MTP)：作为辅助训练目标，通过单个密集层MTP头在训练中期引入，以提高推理效率（评估中接受率>90%）。模型配置：LongCat-Flash包含28层（不包括MTP层），隐藏状态维度为6144。MLA块使用64个注意力头，每个头维度128。FFN密集路径使用12288中间维度，每个FFN专家使用2048维度。每层包含512个FFN专家和256个零计算专家，每个Token激活12个专家。总参数5600亿，每个Token平均激活约270亿参数。三、预训练

LongCat-Flash 的预训练遵循三阶段课程：

阶段 1：通用预训练：在约 20 万亿 Token 上训练，序列长度为 8192，建立稳健的基础模型

数据处理：包括内容提取、两步质量过滤和基于MinHash的大规模去重。数据混合策略：采用两阶段调度，逐步增加高质量推理数据（如STEM和代码）的比例，并根据质量和多样性分数进行实例级数据混合。

阶段 2：推理和编码增强：使用数万亿数据进一步增强推理和编码能力

系统化合成数据工作流：通过知识图谱遍历、多阶段迭代细化和双模态生成与验证来优化数据质量和多样性，确保概念复杂性、CoT推理质量和数学准确性。

阶段 3：长上下文扩展：通过在长上下文语料库上训练，将上下文长度扩展到 128k

两阶段扩展策略：第一阶段从8k扩展到32kToken，RoPE基频从1,000,000提高到5,000,000。第二阶段进一步扩展到128kToken，基频提高到10,000,000。训练语料库：基于自然产生的长文本数据（如书籍、小说）和系统组织的代码库数据。训练策略超参数迁移：基于宽度缩放，通过在较小代理模型上确定最佳超参数，然后根据理论缩放规则将其迁移到目标模型。模型增长初始化：从一个预训练的半规模模型（14层）开始，通过层堆叠技术扩展到目标规模（28层），实验显示其优于随机初始化，并能加速收敛。

训练稳定性

路由器稳定性：通过监控路由器权重相似度和梯度范数比(Rg)，确保负载均衡损失作为正则化项，而不会压倒语言模型损失。激活稳定性（隐藏z-loss）：引入隐藏z-loss以抑制训练期间大规模激活的发生，从而减少数值误差和性能下降风险。Adamepsilon的实际配置：将Adam优化器中的epsilon(ε)参数设置为非常小的值(1e-16)，以保持数值稳定性并保留优化器的自适应特性。

数据净化 (Decontamination)

对所有训练数据进行严格净化，通过 13-gram 重叠和语义相似性（使用 BGE-m3 嵌入）检测，防止基准测试集的数据泄露。

评估

LongCat-Flash 基础模型在通用任务、通用推理、数学推理和编码方面表现出色，与 DeepSeek-V3.1 Base、Llama-4-Maverick Base 和 Kimi-K2 Base 等最先进的开源 MoE 模型相比，参数效率更高，性能具有竞争力甚至更优。

四、后训练

LongCat-Flash 采用传统的多阶段后训练框架，以增强模型在复杂推理、编码、代理工具使用任务和通用能力方面的表现。

推理和编码数学：通过“角色（persona）”和“自指令（self-instruct）”范式生成高质量和新颖的数学问题，并进行两阶段答案验证（多LLM一致性选择和推理增强型奖励模型评分）。编码：汇集来自公共数据集、GitHub代码片段和CodeEvol-Instruct方法生成的编码查询，并通过严格的过滤管道和Docker镜像测试用例验证来确保质量。逻辑推理：构建涵盖演绎、假设和归纳推理的逻辑推理数据集，并进行难度管理（通过Pass@k指标和过滤策略），同时关注最终答案的正确性、推理的完整性和清晰度。代理工具使用任务定义：将代理任务定义为通过系统性环境交互解决复杂问题，任务难度归因于信息处理复杂度、工具集复杂度和用户交互复杂度。

多代理数据合成框架

UserProfileAgent：生成用户配置文件，控制对话风格、沟通意愿和信息披露模式。ToolSetAgent：枚举40个领域和1600个应用，构建80,000个模拟工具的广泛工具图，通过随机游走采样子图控制工具集复杂度。InstructionAgent：根据约束复杂度、推理点数量和推理链长度量化推理难度，生成全面描述完整任务的指令。EnvironmentAgent：增强环境信息并引入混淆元素以增加推理复杂度。RubricAgent：构建任务相关的检查清单，并采用滑动窗口评估整个轨迹。ValidatorAgent和DeduplicatorAgent：检查最终任务的质量并去除相似任务。通用能力指令遵循：策划单轮和多轮指令遵循数据集，并通过可验证规则和模型验证确保响应满足所有约束。长上下文：开发三类长序列数据集（阅读理解、表格问答、定制任务），通过聚合相关上下文段落来促进长序列中突出信息的学习，并优化模型在上下文不完整时的拒绝能力以缓解幻觉。安全性：基于Muetal.[2024]的框架开发内容安全策略，将查询分类为40多个不同的安全类别和五种响应类型，并采用两阶段上下文感知数据合成器（查询分类和响应映射与优化）进行训练。评估基准测试：涵盖通用领域、指令遵循（IFEval、COLLIE、Meeseeks）、数学推理（MATH500、AIME24/25、BeyondAIME）、通用推理（GPQA-diamond、DROP、ZebraLogic、GraphWalks）、编码（Humaneval+、MBPP+、LiveCodeBench、SWE-Bench-Verified、TerminalBench）和代理工具使用（τ2-Bench、AceBench、VitaBench）。比较对象：与DeepSeek-V3.1、Qwen3-235B-A22B、Kimi-K2、GPT-4.1、Claude4-Sonnet和Gemini2.5-Flash等非思维型聊天模型进行比较。评估结果：LongCat-Flash在通用领域、指令遵循、数学推理、通用推理、编码和代理工具使用方面表现出卓越性能，尤其在ArenaHard-V2、IFEval、AIME25、ZebraLogic、TerminalBench和VitaBench上名列前茅。在安全性方面，LongCat-Flash在识别和缓解风险（特别是有害和犯罪类别）方面表现出色。五、训练基础设施

训练基础设施的核心设计原则是可扩展性和精确性。

数值精度控制与故障检测ULP评估：采用ULP（UnitintheLastPlace）作为指标，量化并缓解浮点误差，确保BF16结果与CPUFP32真值之间的精度。SDC检测机制：实现高效的片上原地运算符重计算机制，特别是在FlashAttention梯度(FAG)的反向计算中，通过位差检测潜在的静默数据损坏(SDC)风险。确定性和性能的内核优化确定性FAG：开发高效的确定性FAG内核，通过有限的额外工作空间以确定性顺序累积Tile，同时通过双缓冲流水线、精调的Tile调度和负载均衡实现1.6倍于原始确定性版本和0.95倍于非确定性版本的性能。确定性ScatterAdd：提出分层归约算法，并行化梯度聚合，实现与非确定性版本相当的性能。优化的分组GEMM：通过双缓冲流水线、对角线Tile和HBM带宽控制进行优化，实现5%-45%的加速。融合GemmAdd：将FP32加法融合到GEMM后处理中，避免中间回写并隐藏加法过程，实现3.12x到3.86x的加速。大规模训练的分布式策略专家并行组(EP)：每个EP组包含32个加速器，注意力层采用上下文并行(CP=8)，FFN层使用EP分区而不使用TP。ScMoE结构和分块：ScMoE结构使分发/组合通信与单批次中的更多计算重叠，并将MoE层沿Token维度分成两个块，实现与密集FFN计算和彼此之间的重叠。优化通信：采用带流水线的All-gather/reduce-scatter内核，将非重叠分发/组合通信时间比例从25.3%降低到8.4%。V-ZB算法：采用V-ZB算法平衡所有阶段的内存使用，并将峰值内存降低到60GB以下，实现零理论气泡。可靠性和可观测性可用性：异步检查点将训练停顿减少到2-4秒，结合在线关键日志过滤、优化初始化和全面自动化，将恢复时间减少到可观测性：结合细粒度（PyTorchprofiler）和粗粒度（低开销运行时分析）性能分析，以及一个度量平台，用于快速评估模型状态。六、推理与部署

LongCat-Flash 采用模型与系统协同设计，显著提高了吞吐量和降低了延迟。

模型特定的推理优化计算与通信协同：设计了单批次重叠(SBO)调度策略，利用模块级重叠充分发挥LongCat-Flash的潜力，将通信开销隐藏在单个批次内。ScMoE架构还促进了节点内NVLink带宽利用和节点间RDMA通信的重叠。推测解码(SpeculativeDecoding)：利用MTP作为草稿模型，通过在后期预训练阶段集成一个轻量级MTP头（单个密集层），实现约90%的Token接受率。同时采用C2T方法，使用分类模型在验证前过滤掉不太可能被接受的Token，以降低验证成本。减少KV缓存：MLA机制（64个头）有效压缩KV缓存，减少存储和带宽压力。系统级推理技术最小化调度开销：采用TVD融合策略将目标前向、验证和草稿前向融合到单个CUDA图中。引入多步重叠调度器，在一个调度迭代中启动多个前向步骤的内核，以隐藏CPU调度和同步开销。

定制内核

MoEGEMM：利用SwapAB技术，将权重视为左手矩阵，激活视为右手矩阵，最大化TensorCore利用率，解决Token计数不足时的填充问题。通信内核：利用NVLinkSharp的硬件加速广播和内交换机归约功能，通过内联PTX汇编实现高效的数据传输，性能优于NCCL和MSCCL++。量化：采用与DeepSeek-V3相同的细粒度块级量化方案（激活每个[1,128]块，权重每个[128,128]块），并基于FPTQ和Super-Expert方法，应用层级混合精度量化，以实现最佳性能-精度权衡。部署与性能测量性能：采用PD-Disaggregated架构独立优化预填充和解码阶段，并实现层级传输以降低TTFT。LongCat-Flash在H800上实现100TPS的生成速度，每百万输出Token成本0.7美元。理论性能：在EP数量为128，每设备批处理大小为96的配置下，LongCat-Flash的理论TPOT为16毫秒，每百万输出Token成本0.09美元，比DeepSeek-V3和Qwen3-235B-A22B有显著理论改进。七、结论

LongCat-Flash 是一个 5600 亿参数的 MoE 模型，其核心创新包括：

上下文感知动态计算机制和快捷连接MoE，在训练和推理中实现高效率。确保稳定大规模训练的集成策略。培养LongCat-Flash代理能力的多阶段训练流程，使其能够执行需要迭代推理和环境交互的复杂任务。

LongCat-Flash 作为开源模型发布，旨在推动高效 MoE 架构、高质量数据策略和代理模型开发的研究，促进大型语言模型的社区创新。

本文由 @梦寐ai分享原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

来源：人人都是产品经理

标签：美团龙猫 moe mla 美团龙猫

本文地址：http://news.43b.com.cn/a/895550.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!