重磅开源！复旦与微软联手发布首个端到端无限时长 AI 视频生成框架 StableAvatar

摘要：扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而，现有方法仅能生成时长不足 1

【CSDN 编者按】想让你的虚拟化身开一场永不打烊的演唱会吗？这一梦想正被复旦大学与微软等机构联手打造的 StableAvatar 变为现实。

作为业界首个端到端无限时长音频驱动人像视频生成框架，旨在彻底解决现有技术“长视频恐惧症”——即生成视频超过 15 秒便会出现面部扭曲、动作不连贯的顽疾。

责编 | 梦依丹

本文系论文团队作者投稿

扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而，现有方法仅能生成时长不足 15 秒的短视频，一旦模型尝试生成超过 15 秒的视频，就会出现明显的身体变形与外观不一致现象，尤其集中在面部区域，这一问题严重限制了其实际应用价值。

为了解决这一问题，一些方法尝试在音频驱动人类视频生成中引入一致性保持机制，但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧（Motion Frame），还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性，却无法从根本上缓解无限时长头像视频的质量退化问题。另一种可行方案是将长音频切分为多个片段，分别处理后再拼接成连续的视频。然而，这种方式不可避免地会在片段衔接处引入不一致和突兀的过渡。因此，对于语音驱动的人类视频生成而言，实现端到端的无限时长高保真视频生成依然是一项极具挑战性的任务。

为了解决上述问题，来自复旦、微软、混元腾讯、西交的研究团队提出 StableAvatar 框架，以实现无限时长音频驱动的高保真人类视频生成，目前代码已开源，包括推理代码和训练代码。

论文地址：https://arxiv.org/abs/2508.08248

项目主页：https://francis-rings.github.io/StableAvatar/

项目代码：https://github.com/Francis-Rings/StableAvatar

项目Demo: https://www.bilibili.com/video/BV1hUt9z4EoQ

方法简介

如下图所示，StableAvatar 是基于 Wan2.1-1.3B 基座模型开发的，首先将音频输入 Wav2Vec 模型中提取 audio embeddings，随后通过我们提出的音频适配器（Audio Adapter）进行优化，以减少潜变量分布误差的累积。经过优化的audio embeddings会输入至去噪 DiT 中进行处理。参考图像的处理通过两条路径输入扩散模型：

(1) 沿时间轴将参考图像与零填充帧拼接，并通过冻结的 3D VAE Encoder 转换为潜变量编码（latent code）。该潜变量编码在通道轴上与压缩后的视频帧及二值掩码（第一帧为 1，后续所有帧为 0）拼接。

(2) 通过 CLIP Encoder 编码参考图像以获得 image embeddings，并将其输入到去噪 DiT 的每个图像-音频交叉注意力模块中，用于约束生成对象的外观。在推理阶段，我们将原始输入视频帧替换为随机噪声，而保持其他输入不变。我们提出了一种新颖的音频原生引导（Audio Native Guidance）方法，以替代传统的 Classify-Free-Guidance，从而进一步促进唇形同步与面部表情生成。此外，我们引入了一种动态加权滑动窗口去噪策略，通过在时间维度上融合潜变量，以提升长视频生成过程中的视频平滑性。

StableAvatar 的核心技术点包括以下三个方面：

（1）Timestep-aware Audio Adapter：我们首先观察到，阻碍以往模型生成无限时长视频的主要瓶颈在于其音频建模方式。它们通常仅采用第三方的现成特征提取器获取音频嵌入（audio embeddings），然后直接通过交叉注意力（cross-attention）将其注入视频扩散Transformer。然而，由于现有的基座模型缺乏任何与音频相关的先验，这种方式会导致跨视频片段的潜变量分布误差不断累积，使得后续片段的潜变量分布逐渐偏离目标分布。为此，我们引入了一种新颖的时步感知音频适配器（Timestep-aware Audio Adapter），在将音频嵌入输入视频扩散 Transformer 时，可以有效抑制片段间的误差累积。具体而言，初始音频嵌入（Query）依次与初始潜变量（Key 和 Value）进行交叉注意力计算，随后结合timestep embeddings进行affine modulation，从而得到优化后的音频嵌入。由于timestep embeddings与潜变量高度相关，这一设计潜在地迫使扩散模型在每个时步上建模音频–潜变量的联合特征分布，从而有效缓解因缺乏音频先验而导致的潜变量分布误差累积，优化后的音频嵌入（Key和Value）最后通过交叉注意力与潜变量（Query）交互后注入扩散模型。

（2）Audio Native Guidance：由于优化后的audio embeddings本质上也依赖于潜变量，而不仅仅依赖外部音频信号，我们的Audio Native Guidance不再将audio embeddings作为一个独立于潜变量的外部特征，而是将其作为一个与潜变量相关的扩散模型的内部特征，我们的引导机制能够直接作用于扩散模型的采样分布，将生成过程引导至音频–潜变量的联合分布，并使扩散模型在整个去噪过程中不断优化其生成结果。

（3）Dynamic Weighted Sliding-Window Strategy：与先前的滑窗去噪策略相比，我们在相邻窗口的重叠潜变量上引入了滑动融合机制，其中融合权重依据相对帧索引采用对数插值分布。融合后的潜变量会回注到两个相邻窗口中，从而保证中央窗口的两侧边界均由混合特征构成。借助对数加权函数，可在视频片段之间的过渡中引入一种渐进式平滑效果：早期阶段的权重变化更为显著，而后期阶段变化趋于平缓，从而实现跨视频片段的无缝衔接。