无需训练，即插即用：西湖大学发布世界模型WorldForge，让普通视频模型秒变「世界引擎」

摘要：自 Sora 亮相以来，AI 视频的真实感突飞猛进，但可控性仍是瓶颈：模型像才华横溢却随性的摄影师，难以精准执行 “导演指令”。我们能否让 AI 做到：仅凭一张静态照片，就能 “脑补” 出整个 3D 空间，生成一段围绕主体的 360° 环绕视频？现有的视频能否

自 Sora 亮相以来，AI 视频的真实感突飞猛进，但可控性仍是瓶颈：模型像才华横溢却随性的摄影师，难以精准执行 “导演指令”。我们能否让 AI 做到：仅凭一张静态照片，就能 “脑补” 出整个 3D 空间，生成一段围绕主体的 360° 环绕视频？现有的视频能否进行重新运镜，实现推、拉、摇、移等复杂的电影级镜头调度？这些需求在影视制作、游戏开发、虚拟现实等领域至关重要，但实现起来却困难重重。现有的技术路线往往顾此失彼：要么通过微调（Fine-tuning）模型来实现，但所需算力昂贵，且易损害模型内在的 “世界知识”，导致生成质量下降；要么采用 “扭曲 - 重绘”（Warp-and-Repaint）的策略，但引导信号带有的噪点和伪影，往往会误导模型，造成几何结构错乱和细节失真。有没有第三条路？一条既能实现精准控制，又不牺牲生成质量，还无需重新训练的优雅路径？西湖大学 AGI 实验室的研究团队给出了他们的答案。他们提出了名为 WorldForge 的全新框架，以一种 “即插即用” 的推理时引导方式，在不改动任何权重的前提下，为视频扩散模型装上了一个 “导演大脑”，成功实现了单图到 360° 世界生成和电影级视频轨迹重运镜。

图 8 虚拟试穿亮点四：Training-Free，强泛化、易落地、低成本WorldForge 最大的优势之一在于其无需训练（Training-free）的特性。这意味着它：灵活可迁移：作为一个即插即用的模块，能够应用于多种主流视频模型，无需针对性训练。泛化能力强：WorldForge 具有卓越的跨域适应性，无论是真实的摄影、艺术创作还是 AI 生成素材，都能稳定适配。成本友好：免去重训与数据筹备，降低门槛，让高质量 3D/4D 创作更易获得。结语：迈向 “可控世界模型” 的轻量路径WorldForge 的出现，不仅仅是一项技术的突破，更代表着一种新的范式：在不牺牲大模型先验知识、不增加训练成本的前提下，于推理阶段实现对生成过程的精准控制。它证明视频模型不仅是一个出色的内容 “生成者”，更能成为一个听懂指令的 “执行者”。这项工作极大地降低了高质量的 3D/4D 视觉内容的创作门槛，为影视预览、游戏开发、数字孪生领域提供了强大的新工具。展望未来，当这种精准的时空控制能力与更强的多模态理解（如语言、草图）相结合，我们或许只需通过口头描述或简单勾画，就能导演一部完全由 AI 生成的 “时空大片”。WorldForge 无疑为通往那个 “可控世界模型” 未来，提供了一条具有光明前景的技术路径。© THE END转载请联系本公众号获得授权

来源：爱讲历史的张燕

标签：模型西湖 worldforge 模型worldforge

本文地址：http://news.43b.com.cn/a/1324364.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!