摘要:单目视频到 4D 动态场景的重建长期以来被视为一个病态逆问题,缺乏基线使深度与运动难以解耦,传统 SfM 只能恢复静态外壳,而 NeRF-4D 又依赖数小时的逐场景优化,受制于几何歧义、数据不足与算力开销三重瓶颈。
单目视频到 4D 动态场景的重建长期以来被视为一个病态逆问题,缺乏基线使深度与运动难以解耦,传统 SfM 只能恢复静态外壳,而 NeRF-4D 又依赖数小时的逐场景优化,受制于几何歧义、数据不足与算力开销三重瓶颈。
字节跳动旗下的 Pico 团队推出了新型 4D 视频生成框架 EX-4D,能从单目视频输入生成极端视角下的高质量 4D 视频。它核心创新在于提出了一种名为深度防水网格(DW-Mesh)的新型表示方法。它能够同时建模可见区域与被遮挡部分,从而在极端相机视角下依然保持几何结构的完整与一致。此外,团队还设计了模拟遮挡掩码策略,让单目视频也能产出高质量训练数据,并结合轻量级 LoRA 视频扩散适配器,生成的内容不仅物理一致,还保证了时间上的连贯性。在极端视角的测试中,EX-4D 的表现远超现有方法,成为 4D 视频生成的新解决方案。
这里上传一个草莓的单目视频,经过 EX-4D 的 4D 重建,可以看到生成效果。⬇️
(由于平台限制,视频效果可到「知乎-技术小白狮」同名文章内查看~)
教程链接:https://go.openbayes.com/FtNcm
http://openbayes.com/console/signup?r=sony_0m6v
首先点击「公共教程」,在公共教程中找到「EX-4D:实现单目视频到自由视角生成」,单击打开。
页面跳转后,点击右上角的「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型界面。
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
参数说明
Camera Angle:相机角度,30°-180°,角度越大视野越广。
Frame Count:视频帧数。
Inference Steps:推理步骤。
Random Seed:随机种子。
上传一个草莓视频,点击「Start Reconstruction」,开始进行视频重建。
重建完成后点击「Generate Final Video」,生成最终的 4D 视频。
来源:黑狗文