Day1/5: SkyReels-A3——形随声动，让数字人“说话”的魔法

摘要：8月11日，昆仑万维正式发布SkyReels-A3模型，基于“DiT（Diffusion Transformer）视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”，其能实现任意时长的全模态音频驱动数字人创作。

8月11日，昆仑万维正式发布SkyReels-A3模型，基于“DiT（Diffusion Transformer）视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”，其能实现任意时长的全模态音频驱动数字人创作。

当前SkyReels-A3模型已上线，欢迎登录SkyReels官网体验：

作为音频驱动（audio-driven）人像视频生成模型，SkyReels-A3就像给任意照片或视频装上“AI声带”：

· 让一张照片“活”起来：上传一张人像图片，再配段语音，照片里的人就能按这段语音开口说话或唱歌；

· 创作一段新的视频：上传一张人像图片、配段语音，再给出文字prompt，照片里的人就能按照要求的状态进行表演；

· 给现有视频“改台词”：可以将原视频的音频换掉，人物会自动对上新的口型、表情和表演，画面依旧连贯。

SkyReels-A3模型在以下四个方向上为用户带来新体验：

1. Text Prompt（文本提示词输入）支持画面变化；

2. 更自然的动作交互，包括和商品的交互、说话时的手部动作等；

3. 运镜的运用和控制更高级，让艺术场景如音乐/MV等拥有更高的艺术美感；

4. 可以生成单分镜分钟级别视频，支持长达60秒的输出；多分镜可以支持无限时长。

同时，基于对实际应用场景（如广告、直播带货等）的分析，我们发现这些场景不仅需要更长的一致性视频，在特定交互动作上的自然度和清晰度也有待加强。因此我们构造了针对线上直播等场景的数据，对于此类场景中的视频生成进行了特定优化。

此外，在对艺术美感要求更高的场景——如音乐MV、电影片段或演讲视频中——传统数字人只能输出“固定镜头”，画面显得呆板乏味。

为了让镜头语言更加灵动，我们构造了一种基于ControlNet结构的镜头控制模块，通过精细化镜头参数的输入，实现帧级别精准运镜控制。具体来说，镜头控制模块提取参考图的深度信息，配合相机参数，渲染目标运镜轨迹的参考视频，该参考视频随后作为显式运动先验，引导模型逐帧复现精准的运镜效果，生成带有运镜效果的数字人视频。

当前我们预设了8种常见的运镜参数：包含固定镜头 (static)、推镜 (push in)、拉镜 (push out)、左摇(pan left)、右摇(pan right)、抬升(crane up)、下降(crane down)和手持镜头 (swing)，用户可以根据需要选择相应运镜，并且每个运镜的强度可0–100%连续调节，满足不同需求，生成专业的运镜效果。

SkyReels-A3基于DiT（Diffusion Transformer）视频扩散模型为基础。

DiT模型因其在图像和视频生成方面的卓越性能而备受关注，它用Transformer结构替代了传统的U-Net，能够更好地捕捉长距离依赖关系。为了高效处理视频数据，SkyReels-A3采用了3D变分自编码器（3D-VAE）来取得隐空间的表征，并后续在隐空间进行生成。3D-VAE能够对视频数据在空间和时间维度上进行压缩，将高维原始视频数据编码成更紧凑的潜在表示。在隐空间处理，大大降低了后续扩散模型的计算负担，同时保留了关键的视觉信息。

SkyReels-A3的性能通过广泛的实验进行了验证，包括现有最先进模型（开源和闭源）的定量和定性比较，充分展示了其在音频驱动视频生成方面的能力。

在定量评估中，SkyReels-A3在不同的音频驱动场景，与先进的开源模型OmniAvatar和闭源模型OmniHuman等方法进行了对比。结果显示，SkyReels-A3在大多数指标上超越了这些方法，尤其是在唇形同步（sync-c和sync-d）方面表现出卓越的性能。同时，我们引入了step蒸馏，采用了更少的步数 (40步减少为4步)，效果几乎没有损失。