摘要:在AI大模型的激烈竞争中,美团于9月1日携LongCat-Flash强势入局,在Github、Hugging Face平台开源,并上线官网,LongCat的中文叫做“龙猫”。这一5600亿参数的大模型,采用混合专家模型(MoE)架构,激活参数在186亿到313
在AI大模型的激烈竞争中,美团于9月1日携LongCat-Flash强势入局,在Github、Hugging Face平台开源,并上线官网,LongCat的中文叫做“龙猫”。这一5600亿参数的大模型,采用混合专家模型(MoE)架构,激活参数在186亿到313亿之间,实现了计算效率与性能的优化平衡。作为一款非思考型基础模型,它在少量参数激活下,性能可与主流模型比肩,尤其在智能体任务中表现卓越。
LongCat-Flash,引入“零计算专家(Zero-Computation Experts)”机制。面对不同的输入token,模型能依据上下文需求,精准激活186亿到313亿参数,实现算力的智能分配与高效利用。在处理简单常见词汇时,模型直接输出结果,大大节省了计算资源;而遇到逻辑推理等复杂任务时,则调用完整算力,确保任务高质量完成。为稳定总算力消耗,训练中采用PID控制器实时微调专家偏置,使单Token平均激活量维持在270亿左右。
同时,模型通过在层间铺设跨层通道,实现了MoE通信与计算的并行运作。这一设计极大提升了训练和推理效率,结合定制化底层优化,LongCat-Flash仅用30天便完成训练,并在H800上达成单用户100+ tokens/s的推理速度,输出成本低至5元/百万Token。
通用领域知识方面,LongCat-Flash在ArenaHard-V2基准测试中,斩获86.50的高分,位居第二;MMLU(多任务语言理解基准)得分为89.71,CEval(中文通用能力评估基准)得分为90.44,与国内领先模型相当,且参数规模小于DeepSeek-V3.1、Kimi-K2等。
智能体(Agentic)工具使用也是LongCat-Flash的一大亮点。在τ2-Bench(智能体工具使用基准)测试中,即便与参数规模更大的模型相比,它也毫不逊色;在高复杂度的VitaBench(复杂场景智能体基准)测试中,以24.30的高分拔得头筹。编程领域,LongCat-Flash在TerminalBench(终端命令行任务基准)中,以39.51的得分位居第二;SWE-Bench-Verified(软件工程师能力验证基准)中,60.4的得分使其具备较强竞争力。指令遵循方面,LongCat-Flash在IFEval(指令遵循评估基准)中,以89.65的高分位列榜首;在COLLIE(中文指令遵循基准)和Meeseeks-zh(中文多场景指令基准)中,也分别取得57.10和43.03的佳绩,对中英文复杂指令的出色遵循能力得到充分验证。
今年以来,美团在AI研发上动作频频,年初将LongCat作为内部模型推出,随后发布AI Coding Agent工具NoCode 、AI经营决策助手袋鼠参谋、酒店经营的垂类AI Agent美团既白等多款AI应用。此次LongCat-Flash的开源,是美团“Building LLM”战略的重要一步。
美团在大模型开发上虽沉寂两年,但如今的发力十分激进。与其他已发布多代大模型的互联网和AI公司不同,美团以技术路径和应用场景切入。LongCat-Flash的开源,不仅为开发者提供了可复用、可定制的模型资源,促进AI技术在更多领域的创新应用。
来源:刺猬科技圈