阿里通义万相新突破：静态图+音频，一键生成电影级数字人视频

摘要：阿里巴巴近日在AI视频生成领域再次迈出重要一步，其通义万相平台正式推出了全新多模态视频生成模型Wan2.2-S2V。这一创新技术使得用户仅凭一张静态图片和一段音频，就能生成面部表情自然、口型同步、动作流畅的电影级数字人视频。

阿里巴巴近日在AI视频生成领域再次迈出重要一步，其通义万相平台正式推出了全新多模态视频生成模型Wan2.2-S2V。这一创新技术使得用户仅凭一张静态图片和一段音频，就能生成面部表情自然、口型同步、动作流畅的电影级数字人视频。

据了解，Wan2.2-S2V的生成能力极为强大，单次视频生成时长可达分钟级别，这无疑为数字人直播、影视后期制作以及AI教育等多个行业带来了革命性的视频创作效率提升。目前，该模型已在通义万相官网、Hugging Face以及魔搭社区等平台上线，供开发者及行业用户免费或付费试用。

回顾通义万相的发展历程，自今年早些时候以来，该平台已陆续推出了多款视频生成模型，包括文生视频、图生视频以及音频驱动生视频等。而此次发布的Wan2.2-S2V，更是在音频驱动方面实现了显著的技术突破。

在实际体验中，Wan2.2-S2V展现出了令人惊叹的生成效果。无论是真人、卡通、动物还是数字人形象，只需上传对应的图片和音频，模型就能让图片中的角色“活”起来，完成说话、唱歌、表演等各种动作。尤为该模型在口型同步和身体动作的自然度上达到了极高的水准，使得生成的视频几乎可以以假乱真。

除了强大的生成能力外，Wan2.2-S2V还支持多种画幅和分辨率的视频生成，满足了不同场景下的使用需求。例如，用户可以选择生成竖屏短视频，用于社交媒体传播；也可以选择横屏影视剧格式，用于更专业的影视制作。

该模型还引入了层次化帧压缩技术，将历史参考帧的长度从数帧拓展到了73帧，从而实现了更加稳定的长视频生成效果。这一技术的突破，无疑为长视频内容的创作提供了更加坚实的基础。

来源：ITBear科技资讯

标签：视频数字电影音频影视后期制作

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!