Sora 2瑟瑟发抖！通义万相2.5：一句话出1080P电影，音画精准同步

摘要：Veo 3真正对手，竟不是Sora 2！通义万相2.5全网首发，直接甩出王炸：一句话，直出10秒1080P电影级视频，首次实现音画精准同步。一键生成BGM、人声，全网实测玩疯。

编辑：桃子好困

【新智元导读】Veo 3真正对手，竟不是Sora 2！通义万相2.5全网首发，直接甩出王炸：一句话，直出10秒1080P电影级视频，首次实现音画精准同步。一键生成BGM、人声，全网实测玩疯。

四个月前，谷歌DeepMind重磅推出Veo 3，首次实现「音画同步」，让AI视频彻底告别无声时代！

一段提示，可以直吐4K高清视频，还自带逼真音效，唇同步准到毫秒级别。

在云栖大会上，通义万相2.5（Wan2.5-preview）系列模型正式亮相，全模态生成一网打尽。

它包含了四大模型——文生视频、图生视频、文生图、图像编辑

尤为瞩目的是，通义万相2.5视频生成模型，也首次取得了音画同步的突破。

无论是人声，还是音效、BGM，皆可与画面精准对齐。

单一模型基本覆盖了全模态的生成，这在AI视觉生成领域，都是领先一步的存在。

它的到来，再次大幅降低了电影级视频创作的门槛，让每个人都能成为「导演」。

万相2.5一亮相，就被不少玩家称为「Veo 3的真正对手」。

10秒1080P超清视频，在画面质感，还有音画同步上，效果直接对标国际顶尖水平，实力不容小觑。

一时间，全网创意再度被万相2.5点燃，各种令人拍案叫绝的AI视频正持续刷屏。

一手实测，DNA瞬间动了

这一次，在创作能力上，通义万相2.5实现了全方位的升级突破。

视频生成时长由5秒大幅提升至10秒，单次生成即可呈现结构完整、情节连贯的故事内容。

如前所述，它还支持24帧/秒 1080P高清视频，画面质感更加细腻流畅，完全达到了电影级视觉效果。

在指令理解与执行方面，万相2.5的能力也得到显著增强——

视频生成中，可精准理解运镜等，复杂连续变化的指令

图像生成中，支持通过指令一键实现人物换装、风格转化效果等。

输入一段提示，即可生成人声、环境音效和背景音乐，并且精准与画面内容、人物口型匹配，让视频演绎更加生动形象。

现在，所有人进入通义万相官网即可体验，开发者可通过阿里云百炼平台调用API。

传送门：https://wan.video/

一起来看看，万相2.5在实测中的真实表现。

一句话，拿捏单口喜剧、ASMR

首先，是最考验单一模型多模态融合能力的「试炼场」——文生音视频。

在这里，万相2.5需要从零开始，凭空构建一个声画俱佳的世界。

先上第一道考题——「魔性」切水果，此前Veo 3直出ASMR视频风靡全网，收割了一大波流量。

一刀切下去，Q弹果冻质感、玻璃质感水果伴随着逼真的特效声音，观感那叫一个爽到起飞。

这一次，我们不在砧板上切玻璃水果，而是蓬松的云朵状物体，还要发出「嘶」声和干冰升华的气流声。

不得不说，万相2.5自动配音超丝滑。

再来看一组，万相2.5生成的1080P电影级质感的画面，每一帧都仿佛置身于专业片场。

一位风尘仆仆粗犷牛仔，从腰侧枪套中拿出一把枪，指节紧绷，目光横扫西部鬼城的荒凉街道，呢喃着，「这地界活人可待不住」。

再看如下这个demo中，海盗在暮色时分，伫立在船桅瞭望台，海水猛烈拍打，船身摇晃发出吱嘎声响，堪比电影版《加勒比海盗》。

万相2.5更多文生视频惊艳Demo合集：

看一眼图，就能「听见」声音

除了从无到有，万相2.5还拥有一项「点石成金」的能力：图生视频。

它能一键让静态图片「活」过来，并智能地配上最契合的音效。

冰雪消融，化作涓涓细流，背景里那空旷治愈的自然之声，竟然是万相2.5仅仅「看图」，便能生成出强代入感的意境。

Prompt：固定镜头记录冰雪融化的场景。冰层边缘持续融化，水珠从冰块顶部断续滴落，落入下方水流中，激起微小水花。水流在冰层间缓慢流动，水面泛起轻微涟漪。冰层内部出现细微裂痕，伴随脆响。滴水声与冰裂声交替出现，背景为寂静清冷的清晨环境音，包括远处微弱的风声与自然空旷感的回响。

图/文+音生视频，组合拳精准控场

值得一提的是，万相2.5还支持多种模态的组合输入，比如「图片+音频」和「文字+音频」，让创作者秒变大片「导演」。

比起一段文字、一张图片直出视频，从内容创作的优势来看，多种模态输入可以更好控制最终的生成效果。

接下来，我们将文字、音频输入，看看万相2.5实际表现。

上传一张涂鸦图和一段rap音频，没想到，模型不仅让涂鸦小人「活」了起来，而且口型也与Rap节奏完全同步，视觉冲击力极强。

Prompt：Night, overcast light, side lighting, cool tone, medium shot, right-heavy composition. The scene is set under a gritty, urban railway bridge. A lone streetlight casts a dim, cool glow, creating a cinematic atmosphere with high energy and striking details. A dynamic graffiti art character—a young figure composed of spray paint and bold marker lines—comes to life from a concrete wall. He stands in a classic, energetic rapper's pose, his body animated and full of motion. The young graffiti character raps at an incredibly fast pace, his mouth movements perfectly synchronized with the lyrics.

He sings: "Skyscrapers loom, shadows kiss the pavement. Dreams stack high, but the soul's in the basement. Pocket full of lint, chasing gold like it's sacred. Every breath a gamble, the odds never patient." His posture and gestures emphasize the intensity of his performance. The background features the rough, textured concrete of the bridge, with the distant silhouettes of skyscrapers adding to the urban setting. The video captures the raw, vibrant energy of the scene, with no camera movement, maintaining a steady, focused composition.

原生多模态架构，核心技术揭秘

如上经过一波全方位实测后，不难看出，通义万相2.5的效果彻底鲨疯。

为什么这一次迭代后，能够如此厉害？

这是因为，通义万相2.5在技术架构上实现了重大更新：首次采用原生多模态架构！

过去，生成一个带声音的视频，可能需要一个文本理解模型、一个视频生成模型、一个音频生成模型，再将它们强行拼凑在一起，效果自然生硬。

而「原生多模态」意味着，通义万相2.5是在一个统一的框架下，同时学习和理解文本、图像、视频、音频等多种模态的数据。

一体化处理：在同一套框架下，模型可以无缝处理多种任务，无论是理解还是生成，文本、图像、视频、音频都可以自由地作为输入和输出。
深度模态对齐：通过联合训练，模型对文本、音频、视觉数据建立了更深层次的关联。这正是实现音画精准同步、指令遵循能力大幅提升的关键。
人类偏好对齐（RLHF）：在技术底层之上，团队还通过持续的人类反馈强化学习，不断优化模型的审美，最终提升了图像质量和视频的动态美感。

万相「家族」卷开源，下载破3000万

如今，通义万相「家族」已支持文生图、生视频、图生视频、人声生视频、动作生成等10多种视觉创作能力。

截至目前，其累计已生成3.9亿张图片、7000万个视频。