摘要:AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqiz
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
可控的视频生成需要实现对摄像机的精确控制。然而,控制视频生成模型的摄像机运动(camera control)总是不可避免地伴随着视频质量的下降。近期,来自多伦多大学、Vector Institute、Snap Research 和西蒙・弗雷泽大学(SFU)的研究团队推出了 AC3D (Advanced 3D Camera Control)。AC3D 从基本原理出发,分析了摄像机运动在视频生成中的特点,并通过以下三方面改进了视频生成的效果和效率:
1. 低频运动建模:研究发现视频中的摄像机运动具有低频特性。研究者优化了训练和测试的条件调度,加速了训练收敛,同时提升了视觉和运动质量。
2. 摄像机信息表示:通过研究无条件视频扩散变换器的表示,研究者观察到其内部隐含地进行了摄像机姿态估计。将摄像机条件注入限制在特定子层,既减少干扰,又显著降低了参数数量并提升训练速度和视觉质量。
3. 数据集改进:通过加入包含 20,000 段动态视频的高质量静态摄像机数据集,增强模型区分摄像机运动与场景运动的能力。这些发现促成了 AC3D 架构的设计,从而同时提升了摄像机控制的效率以及视频的质量,使得 AC3D 在具有摄像机控制的生成视频建模中达到了新的技术水平。
论文标题:AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers论文地址:arxiv.org/abs/2411.18673项目地址:snap-research.github.io/ac3d/方法介绍
研究者首先搭建了文生视频扩散模型作为基础模型,对该模型进行分析,从而得到摄像机控制的第一性原理。然后研究者基于这些原理设计了 AC3D。
基础模型:视频扩散模型
AC3D 基于 VDiT(Video Diffusion Transformer)采用了标准的 Transformer 结构进行构建。VDiT 通过在变分自动编码器(VAE)潜空间中执行扩散建模,从文本描述生成视频。模型架构包括:
使用 T5 编码器生成文本嵌入;通过交叉注意力机制将文本嵌入输入 VDiT;在潜空间中采用流扩散参数化技术(Rectified Flow Diffusion)进行生成。具体而言,研究者采用了一种标准设计,预训练了一个具有 11.5B 参数的 Video DiT 模型。该模型包含 32 层,隐藏维度为 4,096,并在 CogVideoX 的潜空间中操作,并使用了 流扩散参数化技术(Rectified Flow Diffusion)。基础模型在一个大规模图像和视频数据集上训练,该数据集包含了文本注释,分辨率范围从 17×144×256 到 121×576×1024。
摄像机运动的第一性原理分析
(1)分析 1:运动光谱体积(MSVs)分析
通过运动光谱体积(Motion Spectral Volumes, MSVs)分析,研究者发现摄像机引起的运动主要位于低频段。与场景运动相比,摄像机运动更平滑且更少剧烈变化。并且,84% 的低频运动信息在扩散过程的前 10% 阶段已经确定,后续不会再改变。基于这一观察,研究者调整了训练和测试的噪声条件调度,将摄像机运动注入限制在早期噪声阶段进行训练和推理。这一方法大幅减少了后期干扰,同时提升了视频的视觉质量和运动保真度。
(2)分析 2:线性探测的 VDiT 表征
研究者通过线性探测实验,在文生视频网络的每一层训练一个线性层以预测摄像机参数。实验结果显示:
1. 无条件文生视频模型在中间层对摄像机姿态信息预测最为准确;
2. 网络中间层对摄像机参数具有最佳表征,说明模型在早期阶段隐式地注入了摄像机位置信息,并利用后续层指导其他视觉元素生成。
基于此发现,AC3D 将摄像机条件注入限制在前 8 层,从而减少了对其他视觉特征表征的干扰,显著提升了训练速度和生成质量。
(3)分析 3:数据集偏见的分析
传统的具有相机参数的视频数据集(如 RealEstate10k)几乎只有静态场景。这种静态场景视频导致模型难以区分摄像机运动与场景运动,也使得网络过拟合到静态分布上,从而降低了生成视频中文运动场景的质量。然而,在动态视频中预测摄像机运动依然没有很好的开源解决方案。研究者另辟蹊径,构建了一个包含 20,000 个动态场景但使用静态摄像机拍摄的数据集。
这种混合动态场景静态摄像机与静态场景动态摄像机的数据集,显著改善了模型的学习效果。训练后,模型更能分离摄像机运动和场景运动,从而生成更加真实且动态的视频。
摄像机控制方法
为实现摄像机控制,研究者将 ControlNet 模块与 VDiT 结合,形成了 VDiT-CC(VDiT with Camera Control)。具体方法:
1. 用 Plücker 相机表征,通过全卷积编码器对摄像机轨迹进行编码;
2. 使用轻量化的 128 维 DiT-XS 模块处理摄像机编码,并类似 ControlNet 直接将摄像机特征加入到视频特征中进行融合;
3. 只在 256x256 的分辨率中训练摄像机运动注入,因为研究者发现摄像机运动属于一种低频信息。在低分辨率中训练也可以推理在推理高分辨率时实现精准相机控制。
4. 调整训练和推理时的摄像机条件调度,仅覆盖逆扩散轨迹的前 40%。这种噪声调节平均将 FID 和 FVD 指标提升了 14%,并使摄像机跟踪能力在 MSR-VTT 数据集上提高了 30%(该数据集用于评估模型对多样化、超出微调分布场景的泛化能力)。此外,这种方法还增强了整体场景的运动性,我们在实验中对其进行了定性验证。
5. 仅在前 8 个 DiT 块中注入摄像机信息,而将后续的 24 个 DiT 块保持无条件状态。这种设计能够避免摄像机信息与后续层的其他特征表征产生干扰,同时显著减少训练复杂度,提高模型的生成效率和质量。
其他改进:为了进一步提升模型的性能和摄像机控制能力,研究者引入了以下创新:
1. 一维时间编码器:通过因果卷积,将高分辨率摄像机轨迹数据转换为低分辨率表示。
2. 分离文本与摄像机引导:为文本和摄像机信号独立设计引导机制,分别调整每种输入类型的权重。
3.ControlNet 反馈机制:通过交叉注意力,从视频向摄像机提供反馈,优化摄像机表示。
4. 移除摄像机分支的上下文信息:消除上下文干扰,提高对摄像机轨迹的追踪能力。
通过这些方法,AC3D 在摄像机控制效率和生成质量上取得了显著突破,为高质量的文本生成视频提供了新的技术基准。
模型结果
研究者展示了一系列提示词,不同摄像机轨迹下的可控视频生成(总时长 40 秒),通过这些视频可以直观地观察 AC3D 在摄像机控制上的表现。
Prompts:
1. 在一个艺术工作室中,一只戴着贝雷帽的猫正在小画布上作画。
2. 在一个未来厨房中,宇航员熟练地用平底锅烹饪。
3. 在一个舒适的厨房里,一只泰迪熊认真地洗碗。
4. 在一个热带海滩上,一只金毛猎犬坐在沙滩上,兴奋地吃着冰淇淋。
5. 在公园的长椅上,一只松鼠用小爪子抓着一个多汁的汉堡,悠闲地吃着。
6. 在一个温馨的咖啡馆里,一只水獭熟练地操作着浓缩咖啡机。
7. 在一个别致的城市厨房里,一只戴着小厨师帽的猫正在揉面团。
8. 在厨房里,一名宇航员正在用平底锅烹饪。
9. 在一个未来感十足的东京天台上,一只戴着耳机的机械考拉在混音。
10. 穿着正式服装的猫坐在棋盘旁,专注于下一步棋局策略。
11. 在一个废墟中,一名孤独的机器人正在寻找可利用的材料。
12. 穿着文艺复兴服饰的小老鼠正优雅地吃着一块奶酪。
总结
AC3D 对视频扩散模型中的摄像机运动进行系统性分析, 从而显著提升控制的精度和效率。通过改进条件调度、针对特定层的摄像机控制以及更精确校准的训练数据,模型在三维摄像机控制视频合成方面达到了最先进的性能,同时保持了高视觉质量和自然的场景动态。这项工作为文本生成视频中更精准和高效的摄像机控制奠定了基础。未来的研究将专注于进一步克服数据局限性,并开发适用于训练分布范围外摄像机轨迹的控制机制。
来源:机器之心Pro