美团LongCat-Video:5分钟长视频生成,解锁AI“数字孪生”新可能

B站影视 港台电影 2025-10-29 22:19 1

摘要:10月27日,美团LongCat团队抛出的开源视频生成模型LongCat-Video,给角逐激烈的AI视觉赛道带来了关键突破。136亿参数的精巧体量、Diffusion Transformer(DiT)架构的技术底座,再加上稳定输出5分钟长视频的核心能力,这款

10月27日,美团LongCat团队抛出的开源视频生成模型LongCat-Video,给角逐激烈的AI视觉赛道带来了关键突破。136亿参数的精巧体量、Diffusion Transformer(DiT)架构的技术底座,再加上稳定输出5分钟长视频的核心能力,这款模型不仅刷新了开源领域的性能标杆,更让AI在数字空间模拟真实世界的“世界模型”构想,迈出了坚实的一步。

要理解LongCat-Video的革新性,首先得看清视频生成领域的长期痛点。此前多数模型要么卡在“时长瓶颈”,生成十几秒就出现画质降解;要么栽在“逻辑断层”,人物动作突然断裂、物体位置莫名漂移。而LongCat-Video的核心解法,藏在“视频续写任务预训练”与架构创新的双重组合里。

作为基于DiT架构的统一基座模型,它创造性地通过“条件帧数量”实现任务区分:文生视频无需参考帧,图生视频输入1帧参考图,视频续写则依托多帧前序内容,天然形成“文生/图生/续写”的完整闭环。这种设计避免了传统多任务模型需额外适配的繁琐,就像一台能自动切换模式的精密仪器,既省心又高效。

5分钟长视频的稳定输出,是其最亮眼的技术标签。这背后离不开三大核心支撑:视频续写任务的原生预训练,让模型从一开始就理解“时序延续”的逻辑;Block-Causual Attention机制精准捕捉帧间关联,确保动作衔接自然;再加上GRPO后训练技术的优化,最终实现了无质量损失的长时序生成。要知道,即便是行业先进模型,此前也难以突破分钟级的连贯输出门槛,LongCat-Video的这一表现堪称开源领域的“顶尖水准”。

更关键的是,它解决了长视频生成的“合理性难题”。通过对物理规律、时空演化的深度建模,模型能有效规避色彩漂移、动作断裂等常见问题——让行走的人保持连贯步态,让飘落的树叶符合重力规律,这种对真实世界逻辑的还原能力,正是“世界模型”的核心要义。AI通过视频生成任务压缩几何、语义、物理等多维知识,得以在数字空间模拟甚至预演真实世界的运行,这也是LongCat-Video超越普通生成工具的本质价值。

开源策略与场景适配性,让这款模型的产业价值瞬间放大。在数字人领域,它能支撑虚拟主播完成5分钟连贯播报,避免中途动作僵硬;在具身智能场景,可为机器人生成长时序动作模拟,提前优化交互路径;而在世界模型构建中,其对真实场景的动态还原能力,能为AI提供理解世界的“视觉引擎”。对于开发者而言,无需从零搭建框架,就能直接基于开源模型开发各类长视频应用,大幅降低了技术门槛。

值得关注的是,LongCat-Video在基础任务上同样表现亮眼:文生视频可输出720p、30fps高清内容,语义理解达开源SOTA级别;图生视频能严格保留参考图的主体属性与风格,动态过程符合物理规律。这种“长视频能力突出、基础功扎实”的特质,使其在同类模型中具备显著竞争力。

来源:科技零度角

相关推荐