秒拍成片!EX-4D 实现单目视频的快速 4D 动态场景生成

B站影视 港台电影 2025-08-28 16:46 2

摘要:单目视频到 4D 动态场景的重建长期以来被视为一个病态逆问题,缺乏基线使深度与运动难以解耦,传统 SfM 只能恢复静态外壳,而 NeRF-4D 又依赖数小时的逐场景优化,受制于几何歧义、数据不足与算力开销三重瓶颈。

单目视频到 4D 动态场景的重建长期以来被视为一个病态逆问题,缺乏基线使深度与运动难以解耦,传统 SfM 只能恢复静态外壳,而 NeRF-4D 又依赖数小时的逐场景优化,受制于几何歧义、数据不足与算力开销三重瓶颈。

字节跳动旗下的 Pico 团队推出了新型 4D 视频生成框架 EX-4D,能从单目视频输入生成极端视角下的高质量 4D 视频。它核心创新在于提出了一种名为深度防水网格(DW-Mesh)的新型表示方法。它能够同时建模可见区域与被遮挡部分,从而在极端相机视角下依然保持几何结构的完整与一致。此外,团队还设计了模拟遮挡掩码策略,让单目视频也能产出高质量训练数据,并结合轻量级 LoRA 视频扩散适配器,生成的内容不仅物理一致,还保证了时间上的连贯性。在极端视角的测试中,EX-4D 的表现远超现有方法,成为 4D 视频生成的新解决方案。

这里上传一个草莓的单目视频,经过 EX-4D 的 4D 重建,可以看到生成效果。⬇️

(由于平台限制,视频效果可到「知乎-技术小白狮」同名文章内查看~)

教程链接:https://go.openbayes.com/FtNcm

http://openbayes.com/console/signup?r=sony_0m6v

首先点击「公共教程」,在公共教程中找到「EX-4D:实现单目视频到自由视角生成」,单击打开。

页面跳转后,点击右上角的「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型界面。

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

参数说明

Camera Angle:相机角度,30°-180°,角度越大视野越广。

Frame Count:视频帧数。

Inference Steps:推理步骤。

Random Seed:随机种子。

上传一个草莓视频,点击「Start Reconstruction」,开始进行视频重建。

重建完成后点击「Generate Final Video」,生成最终的 4D 视频。

来源:黑狗文

相关推荐