Day1/5: SkyReels-A3——形随声动,让数字人“说话”的魔法

B站影视 内地电影 2025-08-11 14:39 1

摘要:8月11日,昆仑万维正式发布SkyReels-A3模型,基于“DiT(Diffusion Transformer)视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”,其能实现任意时长的全模态音频驱动数字人创作。

8月11日,昆仑万维正式发布SkyReels-A3模型,基于“DiT(Diffusion Transformer)视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”,其能实现任意时长的全模态音频驱动数字人创作。

当前SkyReels-A3模型已上线,欢迎登录SkyReels官网体验:


作为音频驱动(audio-driven)人像视频生成模型,SkyReels-A3就像给任意照片或视频装上“AI声带”:

· 让一张照片“活”起来:上传一张人像图片,再配段语音,照片里的人就能按这段语音开口说话或唱歌;

· 创作一段新的视频:上传一张人像图片、配段语音,再给出文字prompt,照片里的人就能按照要求的状态进行表演;

· 给现有视频“改台词”:可以将原视频的音频换掉,人物会自动对上新的口型、表情和表演,画面依旧连贯。

SkyReels-A3模型在以下四个方向上为用户带来新体验:

1. Text Prompt(文本提示词输入)支持画面变化;

2. 更自然的动作交互,包括和商品的交互、说话时的手部动作等;

3. 运镜的运用和控制更高级,让艺术场景如音乐/MV等拥有更高的艺术美感;

4. 可以生成单分镜分钟级别视频,支持长达60秒的输出;多分镜可以支持无限时长。

同时,基于对实际应用场景(如广告、直播带货等)的分析,我们发现这些场景不仅需要更长的一致性视频,在特定交互动作上的自然度和清晰度也有待加强。因此我们构造了针对线上直播等场景的数据,对于此类场景中的视频生成进行了特定优化。

此外,在对艺术美感要求更高的场景——如音乐MV、电影片段或演讲视频中——传统数字人只能输出“固定镜头”,画面显得呆板乏味。

为了让镜头语言更加灵动,我们构造了一种基于ControlNet结构的镜头控制模块,通过精细化镜头参数的输入,实现帧级别精准运镜控制。具体来说,镜头控制模块提取参考图的深度信息,配合相机参数,渲染目标运镜轨迹的参考视频,该参考视频随后作为显式运动先验,引导模型逐帧复现精准的运镜效果,生成带有运镜效果的数字人视频。

当前我们预设了8种常见的运镜参数:包含固定镜头 (static)、推镜 (push in)、拉镜 (push out)、左摇(pan left)、右摇(pan right)、抬升(crane up)、下降(crane down)和手持镜头 (swing),用户可以根据需要选择相应运镜,并且每个运镜的强度可0–100%连续调节,满足不同需求,生成专业的运镜效果。

SkyReels-A3基于DiT(Diffusion Transformer)视频扩散模型为基础。

DiT模型因其在图像和视频生成方面的卓越性能而备受关注,它用Transformer结构替代了传统的U-Net,能够更好地捕捉长距离依赖关系。为了高效处理视频数据,SkyReels-A3采用了3D变分自编码器(3D-VAE)来取得隐空间的表征,并后续在隐空间进行生成。3D-VAE能够对视频数据在空间和时间维度上进行压缩,将高维原始视频数据编码成更紧凑的潜在表示。在隐空间处理,大大降低了后续扩散模型的计算负担,同时保留了关键的视觉信息。

SkyReels-A3的性能通过广泛的实验进行了验证,包括现有最先进模型(开源和闭源)的定量和定性比较,充分展示了其在音频驱动视频生成方面的能力。

在定量评估中,SkyReels-A3在不同的音频驱动场景,与先进的开源模型OmniAvatar和闭源模型OmniHuman等方法进行了对比。结果显示,SkyReels-A3在大多数指标上超越了这些方法,尤其是在唇形同步(sync-c和sync-d)方面表现出卓越的性能。同时,我们引入了step蒸馏,采用了更少的步数 (40步减少为4步),效果几乎没有损失。

图丨Skyreels-A3在不同音频驱动场景的定量评测得分

此外,我们采取了人工评测来更充分的反应模型生成的效果。对于不同模型的生成结果进行盲测,每个评测者都要求对结果进行某个维度的打分,1-3分,分数越高越好。

从下图(左)可以看到,SkyReels-A3对于面部和主体的稳定性,动作自然性都取得了最好的效果,同时在口型同步和人脸取得最好比较接近的结果。右图则是对于retalking进行了评测,结果显示SkyReels-A3在音画同步和视频质量上都有明显的优势。

图左丨音频驱动图像生成人工评测结果;图右丨音频驱动视频生成人工评测结果

从胶片到数码,从 2D 到 3D,影像技术每一次跃迁都带来内容产业的洗牌。

SkyReels-A3正在把“让影像随声而动”这件事变成人人可上手操作的工具:不需要专业影棚、不需要昂贵设备,只要一段声音和一张照片,人人都能创造无限时长、无限可能的数字内容。

让静态照片开口说话、让现有视频改词不换脸、让数字人直播永不掉帧,SkyReels-A3为电影制作、虚拟直播、游戏开发与教育内容创作沟通提供了低门槛、低成本、高保真的 AI 技术制作方案,让个性化、交互式内容的创作前所未有的高效与便捷。

SkyReels-A3,代表声音即影像的可能性,也许下一个刷屏的爆款视频就来自你的灵感。

来源:产业家

相关推荐