可千万不要小看谷歌Veo3.1的能力

摘要：在AI视频生成领域，谷歌的Veo3.1以其强大的功能和高质量的输出引起了广泛关注。本文将深入探讨Veo3.1的多项新功能，包括首尾帧生成、多图参考视频生成、广告创意视频制作、街头采访和第一视角演讲等。

在AI视频生成领域，谷歌的Veo3.1以其强大的功能和高质量的输出引起了广泛关注。本文将深入探讨Veo3.1的多项新功能，包括首尾帧生成、多图参考视频生成、广告创意视频制作、街头采访和第一视角演讲等。

大家好，我是激情四射的苍何。

15 号谷歌带着他们的最新最强视频生成模型 Veo 3.1 震撼来袭。

当时我人在高铁上，又兴奋，又难受。

难受的是，除了一言难尽的网络，还有在外面飘了几天，人有点麻了。

不过没关系，经过几天细致的测试体验，我觉得是时候拿出来给大家分享了。

Lovart 也第一时间支持了 Veo 3.1，我也是在 Lovart 上做的测试，可别浪费了我刚续的会员，哈哈哈。

PS：虽然普通用户 20 号前也能免费体验 Veo 3.1，地址：https://www.lovart.ai

先说下我的感受吧：

Veo3.1 支持首尾帧、多图参考视频和视频延长，以及带音效，指令遵循好，能精准控制运镜，清晰度较高，特别适合营销广告制作、产品视频等要求较高场景。

同时可以通过 JSON Prompt 来精准控制风格和细节场景转换，我在下文中的 case 也会直接给出这套提示词。

虽说Veo3.1 晚上风评褒贬不一，可能是大家太期待能有什么颠覆 Sora2 的东西出来。

但谷歌这次对的起 0.1 的更新，在某些方面是能胜过 Sora2 的。所以可千万不要小看谷歌 Veo3.1 的能力。

废话不多说，我们直接进入 case。

首尾帧生成视频

这并不是什么新奇的能力，国产视频大模型很早就已经支持了，只不过Veo3.1 的首尾帧生成的视频是带有音效的，在画质上也表现很不错。

比如，我利用首尾帧功能制作房子从草图到成型建筑物的过程。

case 1：儿童简笔画

先来个简单的，上传一张参考图，配合一段提示词，看 Veo3.1 的能力表现。

首先我在 Lovart 中用 Seedream 4 生成一张儿童手绘简笔画图片。

提示词：生成小朋友的简笔画，画中一个人物简笔画和一个太阳。

然后输入用 Veo 3.1 生成视频，提示词如下：

让这张儿童画（参考图1）动起来，保持其蜡笔画的风格。画中的小人对着太阳挥手。太阳也微笑着闪烁光芒。请配上一个孩子清脆的笑声和一段欢快的尤克里里音乐。

相同提示词给到 Sora 2，效果如下：

明显能感受到 Veo3.1 的效果更好，Sora 2 生成的太阳和人物都没展示全，而且音乐也完全不对。

所以指令遵循上 Veo 3.1 有更好的表现。

case 2：咖啡机广告

接下来，我用 3 张参考图上点难度。

Veo 3.1 生成效果如下：

这个视频的提示词也比较简单：

提示词：生成一个8秒的广告。镜头从咖啡机（来自图像1）开始，它正在工作。然后镜头切换到咖啡倒入杯中（参考图2）。最后是产品全景在厨房（参考图3）中。画外音（沉稳男声）：‘清晨，从一杯完美的咖啡开始’。需要有咖啡机煮咖啡的‘咕噜’声和咖啡倒入杯中的声音

基于这个效果，我还做了多个短的片段视频，然后连成了一个 23 s 的汽车从草稿图到不同场景下展现的视频。

视频没有任何处理，全是由 Veo 3.1 生成，然后我做了拼接。

我先是在 Lovart 中生成参考图图片。然后基于多张参考图片再生成视频。

然后在 Lovart 中输入：

截取这个视频的尾帧，生成一张图片给我

就得到视频尾帧图片，然后输入提示词得到新的延续场景视频：

提示词：图1中的车辆冲上沙漠的山丘高地之后腾空而起，慢镜头播放腾空而起的瞬间，车轮带起了砂石，最后汽车稳稳落地停在了沙滩上，配上加速的轰鸣声和轮胎碾压沙砾的声音。

按照同样的方法，可以生成连续的多段视频，做拼接就好了。

讲真，这样连续的视频也能通过这个方法直出啦，贼方便。

广告创意视频

看到 EHuanglu 老哥利用 JSON Prompt 的方式指挥 Veo 3.1 生成创意广告视频，效果贼给力。

仿照着我输入如下 JSON Prompt：

提示词（英文版）
{
“product_name”: “Coca-Cola”,
“product_type”: “Original Taste Soft Drink”,
“description”: “A stream of vibrant red liquid pours down, creating a spectacular explosion of ice-cold carbonated bubbles and dramatic condensation that instantly forms the iconic Contour bottle.”,
“style”: “Cinematic, high-speed macro VFX shot, hyper-realistic, vivid red and icy white color palette.”,
“camera”: “Dynamic pour close-up → Intense bubble and mist collision → Bottle snaps into focus with shimmering condensation.”,
“location”: “Dark, moody background with a subtle, warm red glow emanating from below.”,
“aperture”: “Crisp, deeply focused, ultra-refreshing.”,
“elements”: “Red soda liquid, perfect ice cubes, bursting carbonation bubbles, cold mist and condensation.”,
“powerful”: “The Coca-Cola bottle appears with a dramatic, misty pop sound effect, covered in perfect, icy droplets.”
}

提示词（中文版）{
“product_name”: “可口可乐 (Coca-Cola)”,
“product_type”: “原味汽水/软饮料”,
“description”: “一股充满活力的红色液体倾泻而下，形成壮观的冰冷气泡爆炸和强烈的冷凝水雾，瞬间凝结成标志性的弧形瓶。”,
“style”: “电影级、高速微距特效（VFX）镜头，超现实主义，鲜红色和冰白色调。”,
“camera”: “动态倾倒特写 → 剧烈的气泡和水雾碰撞 → 瓶身带着闪烁的冷凝水清晰出现。”,
“location”: “黑暗、富有情绪感的背景，下方散发出微妙的、温暖的红色光芒。”,
“aperture”: “清晰、深焦、超级清爽。”,
“elements”: “红色苏打液体、完美的冰块、爆裂的碳酸气泡、冷雾和冷凝水。”,
“powerful”: “可口可乐瓶在戏剧性的、带有水雾的“嘭”声效中出现，瓶身覆盖着完美、冰冷的液滴。”
}

这样可以精准控制视频生成片段和运镜。街头采访

这个视频的牛逼之处在于，被采访者将作为下一个采访的人，丝滑形成了过度。

全程只有一个这个提示词：

提示词（英文版）
{
“product_name”: “Street Pulse”,
“product_type”: “Street Interview / Vox Pop”,
“description”: “A charismatic host with a microphone dives into a bustling city crowd, engaging random people with one compelling question.”,
“style”: “Candid, authentic, dynamic, urban, fast-paced editing”,
“camera”: “Handheld follow-cam on host → Quick zoom to interviewee’s face → Wide shot establishing the location → Rapid cuts between diverse reactions.”,
“location”: “Busy city sidewalk, public park, or plaza with heavy foot traffic.”,
“aperture”: “Spontaneous, curious, engaging, real.”,
“elements”: “Host, microphone, diverse pedestrians, city background (traffic, buildings), on-screen text (the question), genuine facial expressions.”,
“powerful”: “A rapid montage of surprising, funny, and thoughtful answers, capturing the city’s diverse heartbeat.”
}
提示词（中文版）
{
“product_name”: “街头脉动 (Street Pulse)”,
“product_type”: “街头采访 / 民意调查”,
“description”: “一位魅力十足的主持人拿着麦克风，深入熙熙攘攘的城市人群，向随机的路人提出一个引人入胜的问题。”,
“style”: “真实抓拍、不做作、动感、都市风格、快节奏剪辑”,
“camera”: “手持摄像机跟随主持人 → 快速推近到受访者的脸部 → 广角镜头交代环境 → 在不同反应之间快速切换。”,
“location”: “人流量大的繁忙城市人行道、公园或广场。”,
“aperture”: “自发的，好奇的，引人入胜的，真实的。”,
“elements”: “主持人，麦克风，形形色色的路人，城市背景（交通、建筑），屏幕文字（显示问题），真实的面部表情。”,
“powerful”: “一个集合了各种令人惊讶、有趣和深思熟虑的回答的快速剪辑蒙太奇，捕捉城市多元的心跳。”
}

第一视角演讲

注意一下人物面部表情和口型，可以说非常自然。

动画随机片段

之前玩 Sora 2 的时候，用这个提示词生成的效果大家还有印象吗？

提示词：一个由各种蔬菜组成的摇滚乐队，在一个灯光昏暗、烟雾缭绕的地下酒吧里激烈表演。主唱是一颗咆哮的卷心菜，吉他手是一根弹奏着电吉他的茄子，鼓手是两个敲击着小番茄的西兰花。它们都有拟人化的表情和动作，卷心菜在舞台上狂野地甩头，茄子在 solo 时飙出火花。观众是各种水果和厨房用具，它们都在疯狂地摇摆。

现在给到 Veo 3.1 出来是这个效果，声音更能体现眼滚乐队，但角色创意表现上不急 Sora 2。

其实我还做了不少的测试，但因为文章篇幅有限，不能全部都放出来。

好了，今天的分享就到这里。

讲真的，每次体验这些新模型，都有一种强烈的割裂感。一方面，技术的迭代速度快得让人窒息，Sora 2 的热度还没过，Veo 3.1 就已经带着新能力杀了过来。我们仿佛被时代洪流推着走，生怕一不小心就掉队了。

但另一方面，这又是一个无比幸福的时代。曾经需要专业团队、高昂成本才能实现的创意，现在我们动动手指、敲几行提示词就能变为现实。

当工具的进化速度快到让想象力都感到压力时，我们唯一要担心的，或许就是自己的创意还够不够用。

技术本身没有终点，但创造力有。

希望我们都能在这场 AI 的浪潮中，不仅仅是做一个旁观者，更是成为一个弄潮儿。

来源：人人都是产品经理

标签：谷歌 sora veo elements aperture

本文地址：http://news.43b.com.cn/a/1599795.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!