无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

B站影视 电影资讯 2025-09-24 14:45 2

摘要:自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到:仅凭一张静态照片,就能 “脑补” 出整个 3D 空间,生成一段围绕主体的 360° 环绕视频?现有的视频能否

自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到:仅凭一张静态照片,就能 “脑补” 出整个 3D 空间,生成一段围绕主体的 360° 环绕视频?现有的视频能否进行重新运镜,实现推、拉、摇、移等复杂的电影级镜头调度?这些需求在影视制作、游戏开发、虚拟现实等领域至关重要,但实现起来却困难重重。现有的技术路线往往顾此失彼:要么通过微调(Fine-tuning)模型来实现,但所需算力昂贵,且易损害模型内在的 “世界知识”,导致生成质量下降;要么采用 “扭曲 - 重绘”(Warp-and-Repaint)的策略,但引导信号带有的噪点和伪影,往往会误导模型,造成几何结构错乱和细节失真。有没有第三条路?一条既能实现精准控制,又不牺牲生成质量,还无需重新训练的优雅路径?西湖大学 AGI 实验室的研究团队给出了他们的答案。他们提出了名为 WorldForge 的全新框架,以一种 “即插即用” 的推理时引导方式,在不改动任何权重的前提下,为视频扩散模型装上了一个 “导演大脑”,成功实现了单图到 360° 世界生成和电影级视频轨迹重运镜。图 8 虚拟试穿亮点四:Training-Free,强泛化、易落地、低成本WorldForge 最大的优势之一在于其无需训练(Training-free)的特性。这意味着它:灵活可迁移:作为一个即插即用的模块,能够应用于多种主流视频模型,无需针对性训练。泛化能力强:WorldForge 具有卓越的跨域适应性,无论是真实的摄影、艺术创作还是 AI 生成素材,都能稳定适配。成本友好:免去重训与数据筹备,降低门槛,让高质量 3D/4D 创作更易获得。结语:迈向 “可控世界模型” 的轻量路径WorldForge 的出现,不仅仅是一项技术的突破,更代表着一种新的范式:在不牺牲大模型先验知识、不增加训练成本的前提下,于推理阶段实现对生成过程的精准控制。它证明视频模型不仅是一个出色的内容 “生成者”,更能成为一个听懂指令的 “执行者”。这项工作极大地降低了高质量的 3D/4D 视觉内容的创作门槛,为影视预览、游戏开发、数字孪生领域提供了强大的新工具。展望未来,当这种精准的时空控制能力与更强的多模态理解(如语言、草图)相结合,我们或许只需通过口头描述或简单勾画,就能导演一部完全由 AI 生成的 “时空大片”。WorldForge 无疑为通往那个 “可控世界模型” 未来,提供了一条具有光明前景的技术路径。© THE END转载请联系本公众号获得授权

来源:爱讲历史的张燕

相关推荐