摘要:研究团队面临的核心挑战可以这样理解:如何让一张静态照片中的人物,完全按照另一个视频中人物的动作和表情来"表演"?这就像是要求一个演员完全模仿另一个演员的所有动作细节,包括最微妙的面部表情,而且还要保持原始角色的身份特征不变。更复杂的是,他们还要解决如何让这个"
研究团队面临的核心挑战可以这样理解:如何让一张静态照片中的人物,完全按照另一个视频中人物的动作和表情来"表演"?这就像是要求一个演员完全模仿另一个演员的所有动作细节,包括最微妙的面部表情,而且还要保持原始角色的身份特征不变。更复杂的是,他们还要解决如何让这个"表演者"无缝融入到一个全新的环境中,就好像他本来就在那个场景里一样。
Wan-Animate的革命性在于它不仅仅是一个简单的动画工具,而是一个统一的框架,能够同时处理两种截然不同但又相关的任务。第一种被称为"动画模式",就像给一张老照片注入生命力,让照片中的人物按照参考视频中的动作和表情动起来,但背景依然保持原照片的样子。第二种叫做"替换模式",则更像是电影中的数字替身技术,将照片中的角色完全融入到参考视频的环境中,替换掉原来的人物,而且看起来就像他们本来就在那个场景中一样自然。
一、技术原理:就像训练一个超级模仿大师
要理解Wan-Animate的工作原理,我们可以把它想象成训练一个极其优秀的模仿表演者。这个"表演者"需要掌握三项核心技能:首先是观察和记忆能力,能够准确识别并记住一个角色的外貌特征;其次是模仿能力,能够精确复制另一个人的所有动作和表情;最后是环境适应能力,能够根据不同的场景调整自己的表现,就像一个优秀的演员能够融入任何角色和环境一样。
整个系统建立在一个名为Wan的强大基础模型之上,这就像是为我们的"表演者"提供了一个扎实的表演基础。但是,要让这个基础模型胜任角色动画的特殊要求,研究团队需要对其进行精心的改造和训练。
系统的输入处理方式特别巧妙。传统的视频生成模型通常只能处理单一类型的输入,但Wan-Animate设计了一种统一的输入格式,能够同时处理参考角色照片、时间连续性信息和环境背景信息。这就像是设计了一种通用语言,让系统能够理解各种不同类型的指令,而不需要为每种任务单独设计不同的处理方式。
在处理参考角色信息时,系统会将角色照片编码成一种特殊的数字表示,然后将这些信息与其他条件信息巧妙地融合在一起。为了确保生成的视频具有时间连续性,系统还会随机选择一些帧作为时间参考点,这样就能保证生成的长视频不会出现突然的跳跃或不连贯的情况。
二、身体动作控制:像操控提线木偶一样精确
控制角色的身体动作是整个系统中最具挑战性的部分之一。研究团队面临一个重要的选择:是使用二维骨架信息还是三维人体模型?经过深入分析,他们选择了二维骨架的方案,这个决定背后有着深刻的考量。
二维骨架就像是我们在解剖学课上看到的人体骨骼图,它能够清晰地标示出人体各个关键点的位置和连接关系。虽然三维模型能够提供更精确的空间信息,但它也带来了一些问题。首先,三维模型通常包含人体的形状信息,这可能会让系统过度依赖这些形状线索,从而影响角色身份的一致性。其次,三维模型对于非人类角色(比如卡通人物或风格化的角色)的适应性较差,而二维骨架则具有更好的通用性。
系统使用VitPose技术来提取骨架信息,这就像是一个专业的动作捕捉师,能够准确识别出视频中人物的各种姿态。这些骨架信息经过特殊处理后,会直接融合到生成过程的初始阶段,就像是为整个生成过程提供了一个精确的动作指导框架。
特别值得注意的是,系统在处理参考角色时不会注入任何动作信息,这样做的目的是为了在时间维度上区分参考帧和目标帧,确保系统能够正确理解哪些是需要保持的角色特征,哪些是需要模仿的动作信息。
三、面部表情控制:捕捉最细腻的情感表达
如果说身体动作控制解决的是"形"的问题,那么面部表情控制解决的就是"神"的问题。人类的面部表情极其丰富和微妙,一个细微的眼神变化或嘴角的轻微上扬都可能传达完全不同的情感信息。传统的方法通常使用面部关键点来控制表情,但这种方法在处理精细表情时往往力不从心。
研究团队采用了一种更加直接和有效的方法:直接使用原始的面部图像作为驱动信号。这就像是给系统展示一张张表情丰富的面部照片,让它学会如何重现这些表情的精髓。但这种方法面临一个关键挑战:如何区分表情信息和身份信息?
为了解决这个问题,系统采用了两个巧妙的策略。首先,它会将面部图像压缩成一维的特征向量,这个过程类似于提取表情的"精华",去除大部分与身份相关的细节信息。其次,在训练过程中,系统会对面部图像进行各种变换,比如调整大小、改变颜色、添加噪音等,这样可以迫使系统专注于表情本身,而不是被身份特征所误导。
系统使用了一种特殊的编码器来处理每张面部图像,这个编码器的结构借鉴了之前成功的面部分析技术。为了进一步改善表情和身份信息的分离,系统还采用了线性运动分解技术,这可以理解为一种数学方法,用来将复杂的面部变化分解成不同的成分。
在架构设计上,系统使用一维卷积层来处理时间序列的面部特征,确保这些特征与视频的时间结构保持一致。然后,这些经过处理的面部特征会通过专门的"面部块"注入到主要的生成网络中,这些面部块使用交叉注意力机制,确保表情信息能够准确地传递到对应的时间段。
四、环境融合技术:让角色完美融入新世界
当我们需要将一个角色放入一个全新的环境中时,最大的挑战不是让他们在空间上匹配,而是让他们在视觉上看起来属于那个环境。这就像是电影制作中的一个经典问题:如何让绿幕前拍摄的演员看起来真的在外星球上?
问题的关键在于光照和色调的匹配。同一个人在不同的光照条件下会呈现出截然不同的外观,明亮的日光下和昏暗的烛光中的同一张脸可能看起来像两个不同的人。当我们将一个在明亮环境中拍摄的角色照片应用到一个昏暗场景的视频中时,如果严格保持角色的原始外观,结果往往会显得非常不自然。
为了解决这个问题,研究团队开发了一个辅助的"重光照LoRA"模块。LoRA是一种轻量级的模型调整技术,就像是为系统安装了一个专业的"化妆师",能够根据环境需要调整角色的光照和色调,但又不会改变角色的基本身份特征。
这个重光照模块的训练数据来自一个巧妙的构造过程。研究团队首先从视频中提取角色图像,然后使用IC-Light技术将这些角色合成到各种不同的背景中。IC-Light是一种能够根据背景自动调整角色光照的工具,通过这种方式,系统能够学会如何根据不同的环境条件来调整角色的外观。
重光照LoRA只应用于系统中的自注意力和交叉注意力层,这样可以在保持角色身份一致性的同时,允许适度的外观调整。这种设计确保了角色在融入新环境时既能保持可识别性,又能看起来自然协调。
五、训练策略:循序渐进的技能养成
Wan-Animate的训练过程就像是培养一个全能表演者的过程,需要循序渐进地掌握不同的技能。研究团队设计了一个五阶段的训练流程,每个阶段都有特定的学习目标。
第一阶段专注于身体控制训练。在这个阶段,系统只学习动画模式,不涉及面部表情的处理。这就像是先教一个表演者学会基本的肢体动作,掌握如何根据骨架信息来生成相应的身体姿态。这个阶段的目标是让系统快速适应新的输入格式,学会正确理解参考图像和时间信息的配置。
第二阶段引入面部控制训练。在身体控制的基础上,系统开始学习如何处理面部表情。这个阶段主要使用肖像类型的数据,因为在这类视频中,面部动作是主要的动态元素,有利于系统专注学习表情驱动的动画效果。为了提高面部区域的生成质量,系统还会对头部、眼部和嘴部区域应用更高的损失权重,这相当于告诉系统这些区域特别重要,需要格外关注。
第三阶段是联合控制训练。在这个阶段,系统将前两个阶段学到的身体控制和面部控制能力结合起来,在完整的数据集上进行训练。由于前面的分阶段训练已经为系统打下了良好的基础,这个联合训练过程通常能够快速收敛。
第四阶段是双模式训练。系统开始同时学习动画模式和替换模式,训练数据被调整为包含两种模式的格式。由于系统的输入设计本身就考虑了与Wan-I2V预训练的兼容性,这个过渡过程相当平滑。
最后一个阶段专门训练重光照能力,这是替换模式特有的功能。通过前面详细介绍的重光照LoRA训练,系统获得了根据环境调整角色外观的能力。
六、实际应用:从实验室到现实世界
当我们讨论一项技术的价值时,最重要的不是它在实验室里的表现,而是它在现实世界中的实用性。Wan-Animate在这方面展现出了令人印象深刻的versatility和robustness。
在实际使用中,系统面临的第一个挑战是姿态重定向。当参考图像和驱动视频中的角色具有不同的身体比例时,直接复制动作往往会产生不自然的结果。就像是让一个身高1.8米的人完全模仿一个身高1.6米的人的动作,如果不进行适当的调整,结果必然看起来很奇怪。
为了解决这个问题,系统会计算两个角色之间对应肢体的长度比例,然后相应地调整目标姿态的骨骼长度,使其与源角色的身体比例相匹配。系统还会根据拍摄类型(全身、半身或肖像)选择适当的参考点来进行位置校准。研究团队甚至提供了一个辅助解决方案:使用图像编辑模型将两个角色都编辑成标准的T型姿态,然后基于这种标准姿态计算缩放因子,这种方法通常能够获得更准确的重定向结果。
对于长视频生成,系统采用了迭代生成的方法。这就像是拍摄一部连续剧,需要确保每一集都能与前面的内容无缝衔接。系统首先生成第一个片段,然后选择该片段的最后几帧作为下一个片段的时间引导。这种方法确保了整个长视频的连续性和一致性。
在性能评估方面,研究团队建立了自己的评测基准,采用自重建任务来评估系统性能。他们使用视频的第一帧作为参考图像,然后让系统使用后续帧的动作信号来重建整个视频。这种评估方法能够客观地衡量系统在动作复制和角色一致性方面的表现。
通过与当前主流的开源角色动画框架进行比较,Wan-Animate在SSIM、LPIPS和FVD等关键指标上都表现出了明显的优势。特别是在与一些基于早期UNet架构的方法相比时,Wan-Animate展现出了显著的质量提升,无论是在人物真实感、局部细节还是时间平滑性方面都有明显改善。
七、与商业产品的较量:开源技术的突围
在人工智能领域,开源技术与商业产品之间的竞争一直是一个有趣的话题。当前在角色动画领域,最接近Wan-Animate功能和性能的主要是一些闭源的商业解决方案,比如Runway的Act-two和字节跳动的DreamActor-M1。这些产品代表了当前行业的最高水平,与它们的比较能够真正检验Wan-Animate的实力。
为了进行公平的比较,研究团队设计了跨身份动画的评估设置,使用完全不同的驱动视频和角色图像进行测试。他们邀请了20名参与者进行主观评估,参与者需要在匿名的情况下选择他们认为更好的结果,评估标准包括视频生成质量、身份一致性、动作准确性和表情准确性等多个维度。
令人惊喜的是,在与Runway Act-two的比较中,Wan-Animate获得了67.2%的偏好率,这意味着超过三分之二的评估者认为Wan-Animate的结果更好。在与DreamActor-M1的比较中,这个数字达到了58.4%,虽然优势没有那么明显,但仍然表明Wan-Animate在整体表现上略胜一筹。
这个结果特别有意义,因为它表明开源技术已经能够在某些方面超越商业产品的表现。这不仅证明了研究团队技术方案的有效性,也为整个开源社区提供了信心,说明通过精心的设计和训练,开源模型完全有可能达到甚至超越商业级别的性能。
在定性比较中,研究团队展示了一系列对比案例。与Animate Anyone等基于UNet的方法相比,Wan-Animate在生成质量上有显著提升;与VACE这样的通用可控视频生成模型相比,Wan-Animate在角色动画任务上展现出更好的稳定性;与Runway Act-two相比,Wan-Animate在处理复杂动作时表现更加稳定;与DreamActor-M1相比,Wan-Animate在局部细节和整体图像保真度方面有一定优势。
八、技术细节的深度剖析:让复杂变简单
为了真正理解Wan-Animate的工作机制,我们需要深入了解一些关键的技术细节。虽然这些细节可能看起来复杂,但它们正是这项技术能够取得突破性效果的关键所在。
在数据构建方面,研究团队收集了大量以人类为中心的视频数据,涵盖说话、面部表情和身体动作等多种活动。为了确保训练质量,他们实施了与通用视频生成类似的质量控制措施,并特别确保每个视频片段中只包含单一且一致的角色。骨架信息的提取不仅用作动作信号标注,还作为基于角色行为过滤视频的标准。
对于角色替换任务,团队使用标注的骨架来跟踪角色,然后利用SAM2技术提取相应的角色掩码。他们还使用QwenVL2.5-72B模型为每个视频生成文本描述,以支持Wan的后训练需求。虽然Wan-Animate支持一定程度的文本控制,但动作信号是主导的控制因素,因此在实际应用中建议使用默认的文本提示。
在并行训练策略方面,由于需要同时加载多个大型模型(DiT、T5、VAE和CLIP),团队采用了精心设计的并行化方案。对于内存密集型的DiT和T5模型,他们使用完全分片数据并行(FSDP)来减少单GPU的内存占用。对于其他模型,则采用标准的数据并行训练。特别地,对于DiT模型,他们还使用了结合RingAttention和Ulysses的上下文并行方案,进一步减少内存消耗并加速训练。
系统的输出分辨率是完全灵活的。在动画模式下,输出宽高比与输入角色图像保持一致;在替换模式下,则与参考视频的宽高比保持一致。最终的推理分辨率是基于分块后的视频token总数来确定的,系统会根据给定的宽高比选择最接近目标token数量的分辨率。
九、消融实验:验证每个组件的价值
科学研究的一个重要原则是要能够证明每个设计选择的合理性。为了验证Wan-Animate各个组件的有效性,研究团队进行了详细的消融实验。
在面部适配器训练方案的消融实验中,他们比较了渐进式训练流程与直接联合训练的效果。对照实验显示,如果从一开始就尝试同时训练所有控制模块,表情驱动往往不够准确,模型也难以正确收敛。研究团队认为这是因为身体动作比面部表情更加复杂,先学会身体对齐有助于后续表情学习的进行。此外,由于面部通常只占据画面的一小部分,在以肖像为主的数据上训练表情模块能够显著加速收敛过程。
重光照LoRA的消融实验同样提供了有价值的见解。在替换模式下,如果不使用重光照LoRA,生成视频中角色的光照和色调会与参考图像保持强一致性,但这可能与新环境产生不协调感。而通过重光照LoRA,角色与环境的融合变得更加真实和谐,同时关键的是,这种调整并不会破坏角色的感知身份。
这些消融实验不仅验证了设计选择的正确性,也为未来的改进提供了方向。它们表明,Wan-Animate的优异表现并非偶然,而是每个技术组件精心设计和协调工作的结果。
十、应用前景:从娱乐到实用的无限可能
Wan-Animate的应用前景远远超出了简单的娱乐范畴。在内容创作领域,这项技术可以大大降低视频制作的门槛和成本。独立创作者现在可以用单张照片创造出复杂的角色表演,而无需雇佣演员或使用昂贵的拍摄设备。
在电影和电视制作中,这项技术为数字复活已故演员、创造虚拟演员或进行危险场景的替身表演提供了新的可能性。制片方可以使用历史照片资料来重现经典角色,或者让当代演员"穿越"到不同的时代背景中。
在教育领域,历史人物可以通过这项技术"复活",为学生讲述他们的故事。想象一下,爱因斯坦亲自为学生讲解相对论,或者莎士比亚朗诵他的十四行诗,这样的教育体验将是多么震撼。
在商业应用中,这项技术可以用于创建虚拟代言人、产品演示视频或客户服务界面。企业可以使用创始人或品牌大使的照片来创建一致的品牌形象,而无需每次都安排真人拍摄。
在个人应用方面,人们可以用这项技术创建个性化的纪念视频,让已故的亲人"参与"到家庭聚会中,或者创建有趣的社交媒体内容。这种技术也为数字遗产的概念提供了新的诠释。
当然,这项技术也带来了一些需要认真考虑的伦理问题。如何确保技术不被恶意使用来制作误导性内容?如何保护个人的肖像权和隐私?如何建立适当的监管框架来平衡创新和安全?这些都是随着技术发展需要社会共同思考和解决的问题。
说到底,Wan-Animate代表的不仅仅是一项技术突破,更是人工智能向着更加理解和服务人类需求方向发展的重要一步。它让我们看到了一个未来:在这个未来中,创造力不再受到技术门槛的限制,每个人都可以成为自己故事的导演。通过将这项技术开源,阿里巴巴团队不仅推动了学术研究的进展,也为整个AI社区提供了宝贵的资源,让更多的研究者和开发者能够在此基础上继续创新。
这项研究的意义远超技术本身。它展示了开源精神在推动科技发展中的重要作用,也证明了中国科技团队在人工智能前沿领域的创新能力。随着Wan-Animate技术的不断完善和普及,我们有理由相信,一个更加生动、更加富有创造力的数字内容时代正在到来。对于那些希望深入了解这项技术的读者,建议访问项目页面https://humanaigc.github.io/wan-animate/,在那里可以找到更多的技术细节、演示视频和下载链接。
Q&A
Q1:Wan-Animate是什么?它能实现什么功能?
A:Wan-Animate是阿里巴巴通义实验室开发的角色动画生成系统,能够让静态照片中的人物按照参考视频中的动作和表情动起来。它有两种核心功能:动画模式可以让照片中的角色表演起来同时保持原背景,替换模式则可以将角色完全融入到新的视频环境中替换原有人物。
Q2:Wan-Animate与其他角色动画技术相比有什么优势?
A:Wan-Animate最大的优势是统一性和完整性。它能同时精确控制身体动作和面部表情,而且在与商业产品Runway Act-two和DreamActor-M1的对比中表现更优。相比其他开源方案,它基于更先进的DiT架构,在生成质量、角色一致性和动作准确性方面都有显著提升。
Q3:普通用户如何使用Wan-Animate技术?
A:目前Wan-Animate还处于研究阶段,研究团队承诺将开源模型权重和完整代码。用户可以通过项目页面https://humanaigc.github.io/wan-animate/获取最新信息和资源。一旦正式发布,用户只需要提供一张角色照片和一个参考动作视频,就能生成高质量的角色动画。
来源:科技行者一点号1