可千万不要小看谷歌Veo3.1的能力

B站影视 韩国电影 2025-10-21 15:57 1

摘要:在AI视频生成领域,谷歌的Veo3.1以其强大的功能和高质量的输出引起了广泛关注。本文将深入探讨Veo3.1的多项新功能,包括首尾帧生成、多图参考视频生成、广告创意视频制作、街头采访和第一视角演讲等。

在AI视频生成领域,谷歌的Veo3.1以其强大的功能和高质量的输出引起了广泛关注。本文将深入探讨Veo3.1的多项新功能,包括首尾帧生成、多图参考视频生成、广告创意视频制作、街头采访和第一视角演讲等。

大家好,我是激情四射的苍何。

15 号谷歌带着他们的最新最强视频生成模型 Veo 3.1 震撼来袭。

当时我人在高铁上,又兴奋,又难受。

难受的是,除了一言难尽的网络,还有在外面飘了几天,人有点麻了。

不过没关系,经过几天细致的测试体验,我觉得是时候拿出来给大家分享了。

Lovart 也第一时间支持了 Veo 3.1,我也是在 Lovart 上做的测试,可别浪费了我刚续的会员,哈哈哈。

PS:虽然普通用户 20 号前也能免费体验 Veo 3.1,地址:https://www.lovart.ai

先说下我的感受吧:

Veo3.1 支持首尾帧、多图参考视频和视频延长,以及带音效,指令遵循好,能精准控制运镜,清晰度较高,特别适合营销广告制作、产品视频等要求较高场景。

同时可以通过 JSON Prompt 来精准控制风格和细节场景转换,我在下文中的 case 也会直接给出这套提示词。

虽说Veo3.1 晚上风评褒贬不一,可能是大家太期待能有什么颠覆 Sora2 的东西出来。

但谷歌这次对的起 0.1 的更新,在某些方面是能胜过 Sora2 的。所以可千万不要小看谷歌 Veo3.1 的能力。

废话不多说,我们直接进入 case。

首尾帧生成视频

这并不是什么新奇的能力,国产视频大模型很早就已经支持了,只不过Veo3.1 的首尾帧生成的视频是带有音效的,在画质上也表现很不错。

比如,我利用首尾帧功能制作房子从草图到成型建筑物的过程。

相关提示词如下:

生成一个过渡视频。展示蓝图(图1)‘拔地而起’,线条逐渐立体化,填充材质和光影,最终变为写实的建筑(图2)。这个过程应该像一个快速的建造延时过程。

最终出来的视频我觉得还是很不错的,施工的音效也是自带出来了。

首尾帧这个功能配合 Lovart 的无限画布,很丝滑,我可以把图片拖进画布,然后连线直接 Chat,就能方便生成好了。

多参考图生成视频

Veo3.1 可以用多张参考图片生成视频,我测了几个 case,都还挺不错。

case 1:儿童简笔画

先来个简单的,上传一张参考图,配合一段提示词,看 Veo3.1 的能力表现。

首先我在 Lovart 中用 Seedream 4 生成一张儿童手绘简笔画图片。

提示词:生成小朋友的简笔画,画中一个人物简笔画和一个太阳。

然后输入用 Veo 3.1 生成视频,提示词如下:

让这张儿童画(参考图1)动起来,保持其蜡笔画的风格。画中的小人对着太阳挥手。太阳也微笑着闪烁光芒。请配上一个孩子清脆的笑声和一段欢快的尤克里里音乐。

相同提示词给到 Sora 2,效果如下:

明显能感受到 Veo3.1 的效果更好,Sora 2 生成的太阳和人物都没展示全,而且音乐也完全不对。

所以指令遵循上 Veo 3.1 有更好的表现。

case 2:咖啡机广告

接下来,我用 3 张参考图上点难度。

Veo 3.1 生成效果如下:

这个视频的提示词也比较简单:

提示词:生成一个8秒的广告。镜头从咖啡机(来自图像1)开始,它正在工作。然后镜头切换到咖啡倒入杯中(参考图2)。最后是产品全景在厨房(参考图3)中。画外音(沉稳男声):‘清晨,从一杯完美的咖啡开始’。需要有咖啡机煮咖啡的‘咕噜’声和咖啡倒入杯中的声音

基于这个效果,我还做了多个短的片段视频,然后连成了一个 23 s 的汽车从草稿图到不同场景下展现的视频。

视频没有任何处理,全是由 Veo 3.1 生成,然后我做了拼接。

我先是在 Lovart 中生成参考图图片。然后基于多张参考图片再生成视频。

然后在 Lovart 中输入:

截取这个视频的尾帧,生成一张图片给我

就得到视频尾帧图片,然后输入提示词得到新的延续场景视频:

提示词:图1中的车辆冲上沙漠的山丘高地之后腾空而起,慢镜头播放腾空而起的瞬间,车轮带起了砂石,最后汽车稳稳落地停在了沙滩上,配上加速的轰鸣声和轮胎碾压沙砾的声音。

按照同样的方法,可以生成连续的多段视频,做拼接就好了。

讲真,这样连续的视频也能通过这个方法直出啦,贼方便。

广告创意视频

看到 EHuanglu 老哥利用 JSON Prompt 的方式指挥 Veo 3.1 生成创意广告视频,效果贼给力。

仿照着我输入如下 JSON Prompt:

提示词(英文版)
{
“product_name”: “Coca-Cola”,
“product_type”: “Original Taste Soft Drink”,
“description”: “A stream of vibrant red liquid pours down, creating a spectacular explosion of ice-cold carbonated bubbles and dramatic condensation that instantly forms the iconic Contour bottle.”,
“style”: “Cinematic, high-speed macro VFX shot, hyper-realistic, vivid red and icy white color palette.”,
“camera”: “Dynamic pour close-up → Intense bubble and mist collision → Bottle snaps into focus with shimmering condensation.”,
“location”: “Dark, moody background with a subtle, warm red glow emanating from below.”,
“aperture”: “Crisp, deeply focused, ultra-refreshing.”,
“elements”: “Red soda liquid, perfect ice cubes, bursting carbonation bubbles, cold mist and condensation.”,
“powerful”: “The Coca-Cola bottle appears with a dramatic, misty pop sound effect, covered in perfect, icy droplets.”
}

提示词(中文版){
“product_name”: “可口可乐 (Coca-Cola)”,
“product_type”: “原味汽水/软饮料”,
“description”: “一股充满活力的红色液体倾泻而下,形成壮观的冰冷气泡爆炸和强烈的冷凝水雾,瞬间凝结成标志性的弧形瓶。”,
“style”: “电影级、高速微距特效(VFX)镜头,超现实主义,鲜红色和冰白色调。”,
“camera”: “动态倾倒特写 → 剧烈的气泡和水雾碰撞 → 瓶身带着闪烁的冷凝水清晰出现。”,
“location”: “黑暗、富有情绪感的背景,下方散发出微妙的、温暖的红色光芒。”,
“aperture”: “清晰、深焦、超级清爽。”,
“elements”: “红色苏打液体、完美的冰块、爆裂的碳酸气泡、冷雾和冷凝水。”,
“powerful”: “可口可乐瓶在戏剧性的、带有水雾的“嘭”声效中出现,瓶身覆盖着完美、冰冷的液滴。”
}

这样可以精准控制视频生成片段和运镜。街头采访

这个视频的牛逼之处在于,被采访者将作为下一个采访的人,丝滑形成了过度。

全程只有一个这个提示词:

提示词(英文版)
{
“product_name”: “Street Pulse”,
“product_type”: “Street Interview / Vox Pop”,
“description”: “A charismatic host with a microphone dives into a bustling city crowd, engaging random people with one compelling question.”,
“style”: “Candid, authentic, dynamic, urban, fast-paced editing”,
“camera”: “Handheld follow-cam on host → Quick zoom to interviewee’s face → Wide shot establishing the location → Rapid cuts between diverse reactions.”,
“location”: “Busy city sidewalk, public park, or plaza with heavy foot traffic.”,
“aperture”: “Spontaneous, curious, engaging, real.”,
“elements”: “Host, microphone, diverse pedestrians, city background (traffic, buildings), on-screen text (the question), genuine facial expressions.”,
“powerful”: “A rapid montage of surprising, funny, and thoughtful answers, capturing the city’s diverse heartbeat.”
}
提示词(中文版)
{
“product_name”: “街头脉动 (Street Pulse)”,
“product_type”: “街头采访 / 民意调查”,
“description”: “一位魅力十足的主持人拿着麦克风,深入熙熙攘攘的城市人群,向随机的路人提出一个引人入胜的问题。”,
“style”: “真实抓拍、不做作、动感、都市风格、快节奏剪辑”,
“camera”: “手持摄像机跟随主持人 → 快速推近到受访者的脸部 → 广角镜头交代环境 → 在不同反应之间快速切换。”,
“location”: “人流量大的繁忙城市人行道、公园或广场。”,
“aperture”: “自发的,好奇的,引人入胜的,真实的。”,
“elements”: “主持人,麦克风,形形色色的路人,城市背景(交通、建筑),屏幕文字(显示问题),真实的面部表情。”,
“powerful”: “一个集合了各种令人惊讶、有趣和深思熟虑的回答的快速剪辑蒙太奇,捕捉城市多元的心跳。”
}

第一视角演讲

注意一下人物面部表情和口型,可以说非常自然。

动画随机片段

之前玩 Sora 2 的时候,用这个提示词生成的效果大家还有印象吗?

提示词:一个由各种蔬菜组成的摇滚乐队,在一个灯光昏暗、烟雾缭绕的地下酒吧里激烈表演。主唱是一颗咆哮的卷心菜,吉他手是一根弹奏着电吉他的茄子,鼓手是两个敲击着小番茄的西兰花。它们都有拟人化的表情和动作,卷心菜在舞台上狂野地甩头,茄子在 solo 时飙出火花。观众是各种水果和厨房用具,它们都在疯狂地摇摆。

现在给到 Veo 3.1 出来是这个效果,声音更能体现眼滚乐队,但角色创意表现上不急 Sora 2。

其实我还做了不少的测试,但因为文章篇幅有限,不能全部都放出来。

好了,今天的分享就到这里。

讲真的,每次体验这些新模型,都有一种强烈的割裂感。一方面,技术的迭代速度快得让人窒息,Sora 2 的热度还没过,Veo 3.1 就已经带着新能力杀了过来。我们仿佛被时代洪流推着走,生怕一不小心就掉队了。

但另一方面,这又是一个无比幸福的时代。曾经需要专业团队、高昂成本才能实现的创意,现在我们动动手指、敲几行提示词就能变为现实。

当工具的进化速度快到让想象力都感到压力时,我们唯一要担心的,或许就是自己的创意还够不够用。

技术本身没有终点,但创造力有。

希望我们都能在这场 AI 的浪潮中,不仅仅是做一个旁观者,更是成为一个弄潮儿。

来源:人人都是产品经理

相关推荐