阿里通义万相新突破:静态图+音频,一键生成电影级数字人视频

B站影视 电影资讯 2025-08-28 02:02 2

摘要:阿里巴巴近日在AI视频生成领域再次迈出重要一步,其通义万相平台正式推出了全新多模态视频生成模型Wan2.2-S2V。这一创新技术使得用户仅凭一张静态图片和一段音频,就能生成面部表情自然、口型同步、动作流畅的电影级数字人视频。

阿里巴巴近日在AI视频生成领域再次迈出重要一步,其通义万相平台正式推出了全新多模态视频生成模型Wan2.2-S2V。这一创新技术使得用户仅凭一张静态图片和一段音频,就能生成面部表情自然、口型同步、动作流畅的电影级数字人视频。

据了解,Wan2.2-S2V的生成能力极为强大,单次视频生成时长可达分钟级别,这无疑为数字人直播、影视后期制作以及AI教育等多个行业带来了革命性的视频创作效率提升。目前,该模型已在通义万相官网、Hugging Face以及魔搭社区等平台上线,供开发者及行业用户免费或付费试用。

回顾通义万相的发展历程,自今年早些时候以来,该平台已陆续推出了多款视频生成模型,包括文生视频、图生视频以及音频驱动生视频等。而此次发布的Wan2.2-S2V,更是在音频驱动方面实现了显著的技术突破。

在实际体验中,Wan2.2-S2V展现出了令人惊叹的生成效果。无论是真人、卡通、动物还是数字人形象,只需上传对应的图片和音频,模型就能让图片中的角色“活”起来,完成说话、唱歌、表演等各种动作。尤为该模型在口型同步和身体动作的自然度上达到了极高的水准,使得生成的视频几乎可以以假乱真。

除了强大的生成能力外,Wan2.2-S2V还支持多种画幅和分辨率的视频生成,满足了不同场景下的使用需求。例如,用户可以选择生成竖屏短视频,用于社交媒体传播;也可以选择横屏影视剧格式,用于更专业的影视制作。

该模型还引入了层次化帧压缩技术,将历史参考帧的长度从数帧拓展到了73帧,从而实现了更加稳定的长视频生成效果。这一技术的突破,无疑为长视频内容的创作提供了更加坚实的基础。

来源:ITBear科技资讯

相关推荐