摘要:官方介绍称,在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,
IT之家 9 月 22 日消息,今日,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。
官方介绍称,在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。
同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考 + 工具调用」与「非形式化 + 形式化」推理能力相结合的大语言模型。团队发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上,LongCat-Flash-Thinking 具备更显著的优势。
创新架构,实现高效推理与稳定训练:
领域并行强化学习训练方法:为了解决强化学习领域混合训练的稳定性问题,团队设计了一种领域并行方案,将 STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-Optimal)。
异步弹性共卡系统:异步弹性共卡系统(DORA)是整个训练的基石。该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步 RL 训练框架三倍提速的同时,确保了每条样本的策略一致性。同时,系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。值得一提的是,在大规模异步强化学习(RL)训练阶段,FLOPs(Floating Point Operations)的投入约为预训练阶段的 20%,为模型性能提升提供了坚实的算力保障。
智能体推理框架:为进一步提升模型的智能体推理能力,团队提出了创新性的“双路径推理框架”。该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API 等),从而高效解决复杂任务。基于 AIME25 实测数据,LongCat-Flash-Thinking 在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保 90% 准确率的前提下,相较于不使用工具调用节省了 64.5% 的 Tokens(从 19653 到 6965),显著优化了推理过程的资源利用率。
形式化推理框架:为了克服当前开源通用大型语言模型在形式化证明任务中的不足,团队针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。这一创新方法系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。
LongCat-Flash-Thinking 在多项权威评测中刷新纪录,在各类推理任务中均展现出持续领先的性能:
IT之家附开源平台地址:
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-ThinkingGithub:https://github.com/meituan-longcat/LongCat-Flash-Thinking来源:IT之家