Veo 3全网实测惊艳所有人！DeepMind CTO：规模是AGI全部吗？

摘要：Veo 3实测来袭：从会说话的松饼到电影质感的短片，一句提示词就能打造电影质感短片，还能音画同步，好莱坞真的要慌了？DeepMind首席技术官更在访谈中透露，Deep Think模式像多线程大脑般并行推理，而AGI的竞赛早已超越单纯「堆算力」。

编辑：英智犀牛

【新智元导读】Veo 3实测来袭：从会说话的松饼到电影质感的短片，一句提示词就能打造电影质感短片，还能音画同步，好莱坞真的要慌了？DeepMind首席技术官更在访谈中透露，Deep Think模式像多线程大脑般并行推理，而AGI的竞赛早已超越单纯「堆算力」。

外星人驾驶飞碟给你送披萨，月球撞上地球——这不是科幻电影作品，而是来自于谷歌刚刚推出的视频生成模型Veo 3。

只用一句提示词就拍出电影质感的短片。

@Alex Patrascu表示，Veo 3领先了竞品好几代，剧本已经翻转了。

画面中是一个半人半机器的家伙，表情狰狞，背景有很多屏幕和电脑，灯光昏暗，空气里的紧张感都传达出来了。

他穿着破旧的长袍，身上还有一些机械零件，胳膊上有电光在闪，看上去像是刚从科幻电影里走出来的反派角色。

从这个画面来看，真的不得不服，整个场景的细节和真实感都太牛了，感觉像是好莱坞大片的一幕。

视频效果被网友盛赞为超级史诗。

谷歌王者归来，正突然取得巨大进步。

Veo 3，特别是通过影视制作工具Flow，旨在赋能电影制作人和内容创作者。Flow允许用户创建场景、管理素材、编辑故事情节并控制镜头运动。

Klarna等公司正在使用Veo来提高营销内容创作效率，从而显著缩短制作周期。

数字营销公司Jellyfish已将Veo集成到其AI营销平台Pencil中，并与航空公司合作提供AI生成的机上娱乐内容。

他们报告称，平均成本和制作时间减少了50%。

Veo 3目前还不是免费开放，Google Gemini的AI Ultra订阅者（每月249.99美元）才能使用。

想要体验，还得先掏腰包啊。

DeepMind CTO专访

Veo 3、Deep Think与AGI

就在谷歌推出Veo 3的Google I/O 2025开发者大会期间，DeepMind的首席技术官Koray Kavukcuoglu参加了The Big Technology播客。

节目中他与主持人Alex Kantrowitz探讨了最新的Veo 3、全新的Deep Think增强推理模式及AGI等热门问题。

规模是AGI的全部吗？

规模（Scale），是当前推动AI模型进步的「明星」，还是一个「配角」？

这个问题，触及了当下大模型发展的核心。

毕竟，谷歌拥有得天独厚的计算资源，似乎「大力出奇迹」是一条显而易见的路径。

Koray承认规模确实是一个重要因素，这一点毋庸置疑：在任何研究问题中，拥有一个能带来改进的维度总是好事。

但他紧接着指出，在生成式AI模型的研究中，规模绝非唯一，它与其他因素同等重要。

哪些因素呢？Koray列举了几个同样关键的「维度」：

架构：模型的内在结构如何设计。算法：驱动模型学习和运行的算法。数据（Data）：高质量、多样化的数据与其他因素同样关键。推理阶段技术：如何在模型训练完成后，优化其推理过程。

他认为，评估模型的进步，不能孤立地看规模，而是要研究规模、数据和参数数量这三者的组合。

他强调，整个领域，包括谷歌内部的许多不同模型，都在以显著的步伐改进。他用「相当出色」和「非常令人兴奋」来形容目前的进展。

谈到AGI时，主持人引用了著名AI科学家、图灵奖得主Yann LeCun的观点——仅仅依靠扩展大型语言模型（Scaling Up LLM）无法达到人类水平智能。

Koray回应道，这只是一种假设，可能正确也可能不正确。

但他认为，没有哪个研究实验室，包括谷歌DeepMind，仅仅专注于扩展大语言模型。

这背后蕴含的哲理是：实现AGI，不仅仅是工程上的规模堆砌，更需要在基础研究上实现突破和「发明」。

Koray认为，通往AGI的路上，需要发明许多「关键要素」和「关键创新」。

AGI是一个极其雄心勃勃、可能是我们一生中遇到的最难的研究问题，因此，拥有一个同样雄心勃勃的研究议程和投资组合，在许多不同的方向上进行尝试，是至关重要的。

「并行思考」的Deep Think模式

在谷歌I/O大会期间进行的这次访谈，自然不会错过谷歌的最新技术发布。

主持人提到了谷歌宣布的一项新技术：Deep Think。

最初主持人以为这是一个新产品，但Koray澄清说，Deep Think不是一个独立的产品，而是集成在Gemini 2.5 Pro模型中的一种增强「模式」（mode）。

Deep Think模式的核心在于改变了模型的「思考」方式。它让模型在推理时能够花费更多时间来「思考」。

更重要的是，与传统推理模型通常构建单一思维链（CoT）不同，Deep Think增强推理模式构建并推理多条并行的思维链。

想象一下，传统模型像一条直线思考，而Deep Think则像拥有多个并行的大脑，同时探索不同的可能性、分析不同的假设。

这无疑是一种更接近人类复杂思维过程的方式。

当被问及模型改进的价值，例如提高10%或50%意味着什么时，Koray认为很难简单量化。

如果能在数学或复杂推理等领域将模型的理解能力提高10%，Koray认为这将是巨大的进步。因为这会极大地扩展模型的通用知识和适用范围。

这种提升不仅仅是分数上的增加，而且是质的飞跃，意味着模型能够处理以前无法触及的问题。

例如，帮助人们学习新知识或解决实际难题。所以，模型的价值，最终体现在它能为人类带来多大的帮助。

多模态的跃进Veo 3

访谈中还提到了谷歌在视频生成领域的新进展，特别是Veo 3模型和Flow。

视频生成是多模态AI的一个生动体现。Koray回顾了Veo 3的演进：

Veo 1到Veo 2主要的进展在于理解物理和动力学，特别是物体对象之间的交互作用。

他提到了一个曾引起广泛关注的例子——切番茄视频，Veo 2生成的切片过程和物体互动（刀、番茄、切片掉落）非常精确和逼真。

在此基础上，Veo 3增加了声音生成匹配。Koray认为这体现了模型对视觉和声音之间交互性和互补性的理解。

「氛围编程」全民创造时代

访谈的最后，主持人问了一个轻松但充满洞察的问题：作为CTO，你是否是「vibe coding」（氛围编程）的粉丝？

Koray的回答是肯定的，而且充满了兴奋。

他认为「vibe coding」令人兴奋之处在于，它使得没有编码背景的人也能够构建应用程序——这打开了一个全新的世界。

他以学习为例，你可以向模型描述你想要一个什么样的应用来解释某个概念，模型就能帮你构建出来。

尽管还处于早期，AI有些地方做得好、有些还不足。但Koray认为，这是技术带来的巨大变革，惠及了更广泛人群。

不仅仅是程序员的福音，更是所有想要将想法转化为实际应用的人的福音，一个全民创造的时代正在到来。

参考资料：

来源：新智元一点号

标签： agi deepmind cto veo koray

本文地址：http://news.43b.com.cn/a/230313.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐