视频模型的 GPT-3 时刻:谷歌 Veo 3 正在重新

B站影视 内地电影 2025-09-28 21:27 1

摘要:今天,我读到一篇 Google DeepMind 发表的论文,标题很直接,叫《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)。这篇论文也许能够说明,计算机视觉领域可能正在迎

今天,我读到一篇 Google DeepMind 发表的论文,标题很直接,叫《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)。这篇论文也许能够说明, 计算机视觉领域可能正在迎来它的「GPT-3 时刻」 。

大家可能还记得几年前,NLP 领域的 GPT-3 时刻。在 GPT-3 出现之前,我们有各种各样的模型:一个用于翻译,一个用于情感分析,另一个用于文章摘要。每个任务都需要一个专门训练的专用模型。

然后,大语言模型(LLM)出现了。它们基于一个简单的理念:用海量的网络数据训练一个巨大的、通用的生成模型。结果是惊人的。这些模型获得了所谓的「零样本」(zero-shot)能力,你不需要为特定任务去微调它,只要用自然语言给出指令(也就是 prompt),它就能完成各种任务,从写代码、做数学题到进行深度研究。NLP 领域从此进入了「一个模型打天下」的时代。

这篇论文的核心观点是, 今天的视频模型,正走在和当年 LLM 完全相同的道路上。它们也遵循着同样的理念:在网络规模的数据上,训练一个大型的生成模型 。

那么,这是否意味着,我们很快就能用一个通用的视频模型,来取代掉计算机视觉领域里那些琳琅满目的专用模型(比如用于物体检测的 YOLO 系列,或者用于图像分割的 Segment Anything)呢?

这篇论文通过对 Google 最新的 Veo 3 模型进行的大量实验,给出了一个非常肯定的答案。他们测试了超过 62 种定性任务和 7 种定量任务,生成了 18,384 个视频来验证模型的性能。结论是, Veo 3 确实展现出了惊人的、跨领域的零样本解决视觉问题的能力 。

今天,我们就来深入解读一下这篇论文,看看视频模型是如何从简单的「像素生成器」,一步步走向「视觉世界通用理解者」的。

视觉智能的四个层次

为了系统地展示 Veo 3 的能力,研究人员提出了一个视觉智能的层次模型,这个框架也为我们理解视频模型的能力提供了一个清晰的路线图。它分为四个层次,层层递进:

感知 (Perception) :理解视觉信息的基础。 建模 (Modeling) :在感知的基础上,构建对物理世界的认知模型。 操作 (Manipulation) :有目的地改变和编辑它所感知和建模的世界。 推理 (Reasoning) :在时空维度上,进行多步骤的复杂逻辑思考。

接下来,我们一层一层地看。

1. 感知:当模型看懂世界

在传统计算机视觉中,「感知」任务通常是各司其职的。你需要一个模型做边缘检测,一个模型做图像分割,另一个模型做超分辨率……。

而 Veo 3 仅通过 prompt,就能零样本完成所有这些经典的计算机视觉任务。比如,你给它一张模糊的图片,告诉它「消除这张图片的模糊」,它就能输出清晰的版本。

更有趣的是,研究人员在测试「边缘检测」这项任务时,发现了一个「 细节悖论 」。

他们使用标准数据集 BIPEDv2 对 Veo 3 的边缘检测能力进行评分,模型的 OIS 分数是 0.77。这个分数不错,但还没到顶尖水平。但当他们仔细检查 Veo 3 生成的边缘图时,发现了一个奇怪的现象:在很多情况下, Veo 3 生成的边缘图比数据集的「标准答案」还要准确和精细 。

上图:从左到右分别为原始图像、Veo 3 生成的边缘图、数据集的「标准答案」边缘图。可以看到 Veo 3 捕捉到了更多轮胎纹理和背景树叶的细节,而这些细节在标准答案中被忽略了。

比如,模型会精确地勾勒出汽车轮胎的胎面花纹,或者背景中每一片树叶的轮廓。而数据集的标注者可能因为工作量巨大,忽略了这些复杂的细节。这意味着,模型因为「过于优秀」,反而和「不够完美的标准答案」产生了偏差,导致分数被拉低了。

这揭示了一个深刻的问题:当模型的感知能力超越了我们用来衡量它的基准时,我们可能需要重新审视我们的评价体系了。

2. 建模:理解世界的运行法则

在「看懂」世界之后,更高层次的能力是「理解」这个世界是如何运作的。视频模型因为天生需要处理时间序列,所以它们在学习「 直觉物理 」(intuitive physics)方面具有天然优势。

Veo 3 展示了它对物理世界基本规律的掌握。例如,在一个测试中,研究人员让模型模拟将一块石头和一個瓶盖放入水中。Veo 3 准确地生成了石头快速下沉而瓶盖漂浮在水面上的视频,表现出对浮力的理解。

上图:对浮力的理解。模型正确地模拟了瓶盖(上)会浮起,而石头(下)会沉没。

更令人惊叹的是,模型还能根据抽象的上下文调整物理模拟。当 prompt 要求模拟一个物体在地球上和在月球上掉落时,Veo 3 生成了两种截然不同的下落速度,这表明它理解重力和空气阻力这些抽象概念。

除了物理规律,模型还展示了对世界状态的记忆能力。比如,一个视频可以先拉近镜头,对准一个窗边的人,然后再拉远回到原始视角。Veo 3 能够保持场景的一致性,证明它在内部维持着一个动态更新的世界模型。

3. 操作:成为一个全能的视觉编辑器

有了对世界的感知和建模能力,模型自然就学会了如何「操作」这个世界。这直接转化为了一系列强大的零样本图像和视频编辑能力。

背景移除、风格迁移、3D 物体姿态调整、甚至是将一张自拍变成专业的商务头像,这些任务 Veo 3 都能通过 prompt 直接完成。

在这一层级,研究人员同样发现了一个有趣的现象:「 绿幕偏见 」(Green Screen Bias)。

他们在测试「实例分割」(instance segmentation)任务时,让模型用纯色块把图像中的物体抠出来。他们发现,如果 prompt 要求背景变成绿色,模型的分割准确率(mIoU)可以达到 0.74。但如果要求背景变成白色,准确率就下降到了 0.66。

上图:图像分割任务的定量评估。可以看到,无论是最佳帧还是最终帧,绿色背景(实线)下的表现都明显优于白色背景(虚线)。

这个差异相当显著。最合理的解释是,模型在训练数据中见过海量的「绿幕」素材,这在影视制作中太常见了。因此,它天生就对「绿色背景下的主体分离」任务更加擅长。这对我们使用这类模型是一个重要的启示:有时候,顺应模型的「偏见」去设计 prompt,可能会得到更好的结果。

4. 推理:视觉版的「思维链」

这是视觉智能的最高层次。当模型需要解决一个需要多步骤规划和逻辑的问题时,它如何思考?

LLM 领域有一个著名的概念叫做「 思维链 」(Chain-of-Thought, CoT),通过让模型一步一步地输出思考过程,可以显著提升它解决复杂问题的能力。

这篇论文的作者们提出了一个与之对应的概念,叫做「 帧链 」(Chain-of-Frames, CoF)。

视频的生成过程是逐帧的。模型在生成下一帧时,必须基于前面的所有帧。这个过程,实际上就是一个在时间和空间维度上展开的、一步一步的推理过程。每一帧的生成,都相当于 LLM 思维链中的一个推理步骤。

上图:「帧链」推理的经典案例——走迷宫。模型需要逐帧规划路径,从起点(红点)移动到终点(绿点),并且不能穿墙。

「帧链」推理让 Veo 3 能够解决一系列需要视觉规划的复杂任务,比如:

走迷宫 :模型能生成一个完整的动画,展示一个物体从迷宫起点走到终点,全程遵守规则。 完成视觉序列 :类似于瑞文推理测验,模型能根据前几个图形的变化规律,推断出最后一个空格应该填什么图形。 工具使用 :在一个测试中,模型需要生成「从鱼缸里取出核桃」的视频。它成功地模拟了人使用工具(比如一个勺子)来完成这个任务。

这种在视觉媒介中进行逐步推理的能力,是静态图像模型所不具备的,也是视频模型能够成为通用视觉基础模型的关键。

惊人的进步速度:Veo 2 vs. Veo 3

如果说以上的能力展示还不够有说服力,那么模型版本的迭代速度和性能提升幅度,则为「范式转移」的论点提供了最强有力的证据。

论文对比了 Veo 3 和它的前代产品 Veo 2。根据发布信息,Veo 2 在 2025 年 4 月可用,而 Veo 3 在 2025 年 7 月就发布了,中间只隔了大约三个月。

在这短短的时间里,性能提升是巨大的。以「走迷宫」任务为例,在一个 $5 \times 5$ 尺寸的迷宫上进行测试(10 次尝试内成功就算通过),Veo 3 的成功率达到了 78%。而仅仅三个月前的 Veo 2,成功率只有 14%。

短短三个月,解决视觉规划问题的能力提升了超过 5 倍。

上图:在 5x5 迷宫任务上,Veo 3(红色)的性能远超 Veo 2(蓝色)。

这种指数级的增长曲线,正是技术革命发生时的典型特征。它预示着,视频模型的能力正在经历一个快速的爬坡期。

现实的挑战与未来的展望

当然,我们也要看到,这项技术目前还远非完美。论文同样坦诚地指出了模型的局限性。

「样样通,样样松?」 :在许多具体任务上,Veo 3 的零样本性能仍然比不过那些为该任务精调的专用模型。这和早期的 GPT-3 很像,通用性很强,但精度上还需打磨。 成本高昂 :目前生成一个视频的计算成本,远高于运行一个轻量级的专用模型。但是,历史经验告诉我们,计算成本的下降速度是惊人的。研究机构 Epoch AI 估计,LLM 的推理成本每年会下降 9 到 900 倍。视频模型很可能也会遵循同样的轨迹。 结果不稳定 :模型的输出对 prompt 非常敏感。在「视觉对称」任务的测试中,研究人员发现,仅仅是改变 prompt 的措辞,模型的成功率就能从最高的 68% 跌到最低的 28%。这说明「 视觉 prompt 工程 」将成为未来使用这类模型的一项关键技能。

此外,模型在处理一些需要极其精细的、多步骤物理规划的任务时,仍然会失败。比如,它无法正确模拟打一个复杂的绳结,或者规划如何将一个大沙发搬过一扇窄门。

上图:一个经典的运动规划难题(钢琴搬运工问题)。Veo 3 在尝试将沙发搬到另一个房间时,违反了物体的刚体属性,直接「穿模」而过。

总结

尽管存在这些挑战,但这篇论文描绘的蓝图依然令人无比兴奋。

核心的论点是清晰且有力的:基于和 LLM 相同的基本原理,视频模型正在快速发展出通用的视觉理解和推理能力。它们通过「帧链」(CoF)这一独特的机制,实现了在时空维度上的逐步推理,从而能够解决过去静态模型无法处理的复杂视觉任务。

从 Veo 2 到 Veo 3 的巨大性能飞跃表明,我们正处在这项技术爆发的前夜。目前我们看到的性能,很可能只是模型真实能力的「下限」。

这不禁让我们思考一个更深远的问题:当「帧链」推理变得像今天 LLM 的「思维链」推理一样成熟和可靠时,AI 将能解决哪些我们今天甚至无法想象的、复杂的时空问题?

我们可能正在见证 AI 掌握物理和空间智能的开端。

来源:晚晚的星河日记一点号

相关推荐