ICCV2025—REGEN: 首个基于DiT的视频Tokenizer

摘要：在现有latent diffusion model的框架下，视频tokenizer的latent space对于视频生成的训练和推理速度有着决定性的作用。目前主流的视频tokenizer，比如MAGVIT-v2，采用基于3D-VAE的架构，实现在空间和时间维度

作者丨Mark Cheung

编辑丨极市平台

论文地址：https://arxiv.org/abs/2503.08665

项目网页：https://bespontaneous.github.io/REGEN/

添加图片注释，不超过 140 字（可选）

在现有latent diffusion model的框架下，视频tokenizer的latent space对于视频生成的训练和推理速度有着决定性的作用。目前主流的视频tokenizer，比如MAGVIT-v2，采用基于3D-VAE的架构，实现在空间和时间维度上的压缩。尽管如此，它们通常能达到 8 倍的空间压缩，却仅有 4 倍的时间压缩。因为传统视频tokenizer难以兼顾压缩比与重建效果，尤其在高压缩率下容易导致细节丢失，所以当前方法难以突破现有的压缩倍率。

本文提供了一种面向latent diffusion model的视频 tokenizer 学习新视角。我们主张从生成角度看待latent representation learning，认为“在latent diffusion model框架下，latent space最关键的特性不是忠实还原输入视频，而是生成视觉上合理的内容”。基于此，我们把传统的编码器–解码器改为编码器–生成器架构。此种生成导向方法使压缩策略更灵活，编码器仅需保留语义和结构要素，解码器则负责合成逼真细节，从而可以达到更大的压缩率和更好的性能。

本模型包含两个主要部分：一是将输入视频转换为compact latent space的 时空编码器（Spatiotemporal Video Encoder）。二是基于 DiT 的 生成式解码器（generative decoder），它将latent作为 conditioning，恢复视频到像素空间。整个模型从头训练，以扩散训练目标进行端对端优化。

添加图片注释，不超过 140 字（可选）

对于Spatiotemporal Video Encoder，我们采用了跟continuous MAGVIT-v2一样的causal 3D convolution blocks架构来同时编码图像和视频数据。具体来说，我们将长度为 k+1 的视频chunk编码为两个latent frames：content frame- zc（只含第 1 帧的信息）和motion frame- zm（压缩其余帧的运动信息），默认地，我们采用8个通道来表示latent space。

与传统解码器不同，我们将解码任务建模为有条件扩散过程。给定输入视频序列及其内容与运动潜在表示 zc,zm，generative decoder 将从噪声序列中（重新）生成目标视频。值得注意的是，我们的formulation天然支持对 Xtanget 的灵活定义，能够应对重建之外的任务。例如，将Xtanget 设为输入视频的时间上采样版本，即可实现时间插值（interpolation）；若设为时间偏移版本，则可实现时间外推（extrapolation）。由于DiT在建模能力和扩展性能方面相较于U-Net表现更优，我们采用DiT作为generative decoder的backbone。我们的解码器在像素空间工作，使用的 patch 大小为p，而p 由编码器的空间下采样倍率决定。在本文中，该倍率为 8，因此设定p = 8。

添加图片注释，不超过 140 字（可选）

传统 Transformer 用静态的时空位置编码（PE）来引导视频解码，但这种固定位置编码无法泛化到训练中未见过的分辨率或宽高比。我们提出了一种新机制：将编码后的latent转化为内容感知(content-aware)的位置编码，而不是使用固定的 PE。具体来说，我们设计了一个全新的conditioning 机制，该模块从latent生成扩展之后的潜在表示，匹配目标视频的时空维度；然后将其添加到 token 和timestep的 embedding中，并输入 DiT解码器。这样，扩展后的潜在表示作为内容感知的位置编码将参与控制生成视频的时空结构。

首先我们在4x8x8的压缩比下将REGEN和现有8-channel，16-channel的视频tokenizer进行比较，可以看到我们的方法在quantitative和qualitative的比较上均领先于现有方法。

8-channel quantitative comparison

8-channel qualitative comparison

16-channel quantitative comparison

为了和其他压缩倍率和不同channel size的视频tokenizer比较，我们计算了所有方法的compression factor，可以看到REGEN相较于其他方法在同样compression factor下取得了更好的性能。

Comparisons at various compression factors

我们将MAGVIT-v2扩展到更高的压缩倍率并和REGEN进行比较，可以看到随着压缩比的增大，REGEN相对于MAGVIT-v2的优势也在不断增加。

Quantitative comparisons at higher temporal compression

Qualitative comparisons at higher temporal compression

我们进一步检验这种compact latent space是否适用于text-to-video generation。为此，我们在 32 倍时间压缩的latent space上，训练了一个基于 DiT 的 5B 参数 latent diffusion model用于text-to-video generation。实验结果表明，即使latent space非常紧凑，扩散模型仍能生成合理的视频内容，显示出本方法在视频生成方面的潜力。值得注意的是，该模型能用仅 8 帧 latent 表示生成 132（32× 时间压缩），相比传统基于 4× 时间压缩的视频嵌入方式，latent 帧数减少约 5 倍，从而显著降低训练与推理成本。

Text-to-video generation at 32x temporal compression

使用传统的 Transformer 作为解码器的一大挑战在于：带有固定位置编码（PE）的模型难以泛化到推理时遇到的未见分辨率。相比之下，我们提出的内容感知位置编码（cntent-aware PE）使 REGEN 在推理阶段天然支持各种宽高比和分辨率，即便在训练时未曾见过。如下图所示，固定 PE 在高分辨率下会导致严重的网格伪影，而我们的方法则能良好泛化。

Reconstruction at different resolutions

扩散模型通常需要多步去噪才能得到高质量结果，这大大增加了推理开销。然而，由于我们的生成解码器拥有很强的conditioning signal，使得生成任务变得更容易。我们在同一模型上测试不同采样步数，观察质量随步数减少的变化（如下图所示）。令人惊讶的是，即便只用一步采样（1-step），图像重构仍无明显质量下降。这意味着我们的扩散解码器甚至可以在无需外部蒸馏的情况下当作类似前馈模型使用，具备很强的实用潜力。

Reconstruction at different sampling steps

我们的latent conditioning 模块不仅支持重建，还能以统一设计实现时间维度上的插值与外推。为验证插值能力，我们与两种基线方法对比：

帧平均：直接平均真实帧；外部插值：在重建帧基础上使用现成插值模型。

结果显示，帧平均会出现明显伪影，而我们的方法则过渡平滑，与真实帧高度一致。此外，我们的模块还能进行时间外推，比如预测未来或过去帧，证明了我们generative decoder的生成能力。

2x interpolation results

Forward latent extrapolation results

跟其他视频tokenizers一样，我们的方法也会在相邻chunk的交接处出现轻微的jumping现象。为了解决这一问题，我们利用解码器的外推能力（extrapolation）：通过当前chunk的潜在表示预测上一个chunk的末帧，进而引导下一个chunk的生成（参考 SDEdit*方法）。如下图所示，此种latent extension策略显著减少了jumping现象，使片段衔接更平滑。