输入文字秒建3A大作世界模型将颠覆游戏行业?深度报告梳理AI游戏

B站影视 内地电影 2025-03-27 17:38 1

摘要:Naavik上周发表了一篇接近1万字的长篇报告,质量非常高。它系统梳理了以世界模型为代表的AI技术的发展历程,以及对游戏产业的潜在影响。

自大模型热潮铺开以来,AI技术就一直在对游戏产业进行系统性改造。

但对于这种改造的深度和广度,不同媒体报道时的侧重点是不一样的。

头部科技类媒体关注技术细节,但缺乏游戏产业视角;游戏垂类媒体热衷搬运信息,但是对技术的讨论基本流于表面。

很多从业者对AI技术的理解还停留在批量生产买量素材,以及米哈游蔡浩宇“99%从业者应该转行”的暴论上:

Naavik上周发表了一篇接近1万字的长篇报告,质量非常高。它系统梳理了以世界模型为代表的AI技术的发展历程,以及对游戏产业的潜在影响。

报告认为,世界模型正从实验室走向商业化,其核心价值在于将“想象”转化为实时交互式体验。

从2018 年哈和施密德胡伯提出的世界模型框架,到如今DeepMind 的Genie 2、腾讯的GameGen - O等先进技术,世界模型在游戏领域的发展日新月异。

或许在未来,用户只需输入一段文字,就能即刻生成一个可供自由探索的三维游戏世界。

尽管面临技术、法律与用户留存等挑战,随着三维数据、状态性架构及效率优化的突破,它有望彻底革新游戏设计范式,并在更广泛领域释放潜力。

未来5-10 年,这一技术或将成为AI 驱动的虚拟世界基础设施。

下面为文章原文翻译,部分内容有删减:

尽管就人工智能应用的发展和消费者的接受程度而言,我们仍处于相对早期的阶段,但我们已经看到基础模型在多种模式下创造了巨大的经济价值。这些模式包括:

文本(OpenAI的ChatGPT、Anthropic的Claude、xAI的Grok 等)

音频与音乐(Suno、ElevenLabs等)

图像(OpenAI的DALL・E 3、FLUX.1、Stable Diffusion 3.5、Ideogram、Midjourney等)

视频(Pika 2.0、Sora、Runway Gen-3 Alpha、Luma Photon、谷歌DeepMind 的Veo 2 等)

这些基础性的创新正在使消费者、创作者和爱好者的内容创作变得更加大众化,让他们能够设计并提供以往只有专业人士才能实现的内容。

在上述每一种模式中,这些模型的能力每一代都不是呈线性增长,而是呈指数级增长。

以文本为例,GPT-3到GPT-4在模型规模(从1750 亿个参数增加到1.8 万亿个参数)、上下文窗口(从2048 个标记增加到12.8 万个标记),以及最终的推理能力(从处于测试者中后10% 的水平提升到前10% 的水平)等方面都出现了显著的变化。

而且发展的速度也在加快:自2023 年3 月GPT-4 发布以来,OpenAI又发布了GPT-4 Turbo(2023年11 月),提供了更大的上下文窗口。

GPT-4o(2024年5 月)推出了首个真正的多模态大语言模型,速度是大约6 个月前发布的GPT-4 Turbo 的两倍,成本则只有后者的一半。

GPT-4o Mini(2024年7 月)的API成本更低;o1(2024年9 月)具备了先进的推理能力;o3(2024年12 月)在编程、数学和科学等领域树立了新的标杆。

·未来的拓展:生成式游戏

在生成式视频之后会出现什么呢?

许多人认为世界模型将是人工智能领域下一个重要的 “模式”。

从机器学习的角度来看,世界模型能够想象一个虚拟(或现实)世界如何随着一个主体(例如,一名玩家)的行为而演变。

基于视频生成技术和自动驾驶技术的进步,这些 “世界模拟器” 能够提供具有时间和空间一致性的三维交互式体验。

为了便于理解,我们可以把世界模型看作是生成式的“无需游戏引擎的”视频游戏:虚拟世界能够实时接受用户输入并做出连贯的反应。

尽管世界模型仍处于发展的早期阶段,输出的逼真度也有待提高,但它们已经大规模地展现出了各种新兴能力。包括复杂的角色动画、物理效果、主体动作预测以及物体交互性。

世界模型是在所有其他模式(文本、音频、图像和视频)的大型数据集上进行训练的,最终目的是培养推断行为后果的能力。

世界模型的影响将是深远的,而且不仅仅局限于虚拟世界。

Meta的首席人工智能科学家杨立昆(Yann LeCun)在最近的一次演讲中描述了世界模型最终将如何 “理解(现实)世界”,并具备 “与人类同等水平的推理和规划能力”,从而成为在消费领域和商业领域执行复杂任务的基础,而这是当前的模式所无法做到的。

不过,世界模型在短期内的许多应用可能会是按需生成游戏和交互式媒体应用程序(二维和三维风格的输出),或者是实时交互式视频体验(二维风格的输出)。

一些关键问题仍然有待解决,包括训练和运行世界模型所需的海量数据和计算能力,以及如何处理模型产生的幻觉和偏差。

在深入探讨之前,让我们先来简要回顾一下我们是如何走到这一步的。

·游戏世界模型简史(2018年至2023 年)

人工智能世界模型正准备从根本上重塑游戏开发,推动在虚拟环境的创建、理解和交互方式上的创新。

同样地,人工智能在理解和玩游戏方面变得更加出色。如今它们在可视化和创建复杂、交互式的三维世界方面也在迅速取得进展。

让我们来看看促成如今现状的发展时间线。

2018年:哈(Ha)和施密德胡伯(Schmidhuber)的世界模型

想象一下,一个人工智能通过在脑海中构建游戏世界的画面来学习在其中导航,就如同玩家在踏入迷宫之前先在脑海中描绘出迷宫的布局一样。

这正是大卫・哈(David Ha)和于尔根・施密德胡伯(Jürgen Schmidhuber)学术论文《世界模型》的核心内容。

他们提出的框架结合了变分自动编码器(VAEs),将视觉信息压缩为关键的抽象概念;利用循环神经网络(RNNs)来预测这些抽象概念随时间可能发生的变化;并使用一个控制器来决定最佳行动方案。

例如,该模型通过在内部模拟圈数,在无需直接交互的情况下优化策略,从而熟练掌握了游戏《CarRacing-v0》。

这一突破表明,人工智能能够通过想象游戏世界来解决任务,就像在国际象棋中在脑海中预演走法一样。

通过抽象表示实现高效决策,这种架构上的创新为未来的发展奠定了基础。

2019年:PlaNet和潜在动力学

尽管哈(Ha)和施密德胡伯(Schmidhuber)让人工智能能够想象游戏世界,但达尼贾尔・哈夫纳(Danijar Hafner)的深度规划网络(PlaNet)为其提供了绘制详细蓝图的工具。

PlaNet利用“潜在动力学”完善了模型的细节处理能力,这一过程类似于将一整座城市的地图浓缩成关键地标,以便更高效地导航。

这些对环境的简化抽象表示使得PlaNet能够通过在这种压缩的表示中模拟结果来规划行动,而不是依赖于原始的、复杂的数据。

这一创新使得PlaNet在需要连续控制的游戏中成为天生的策略制定者,比如机器人的移动控制,或者在虚拟的《吃豆人》游戏中躲避幽灵。

通过关注大局,PlaNet证明了对环境的抽象描绘能够带来更智能、更快速的决策。

这是向具有通用性的人工智能规划迈出的重要一步。

2020年:Dreamer与通过想象进行学习

Dreamer提升了“想象”这一概念,使得人工智能从单纯的绘制草图,发展到能够对可能的未来进行完整的“梦境”模拟。

Dreamer将PlaNet的潜在动力学与强化学习相结合,使其能够模拟详细的行动轨迹,并根据想象出的场景来优化策略。

就如同玩家在策略游戏中预想自己的选择所产生的连锁反应一样,Dreamer在其潜在空间中模拟未来场景的能力,使其无需在真实游戏中进行反复试验,就能优化策略。

例如,Dreamer在诸如引导机械臂以及在虚拟场景中导航等任务上表现出色,它通过在内部生动地模拟自己的“梦境动作”来实现这些。

DreamerV2将这种能力扩展到了更复杂的雅达利2600游戏中,成为评估想象性预测和智能体性能的一个基准。这有助于证明,详细的模拟往往优于单纯依靠大量尝试的实验方法。

2023年:Runway的通用世界模型和DeepMind 的Genie

2023年,作为人工智能视频生成领域的领先者之一,Runway宣布了其通用世界模型计划,该计划旨在利用生成对抗网络(GANs)和先进的空间建模技术来生成三维世界的模拟场景。

Runway通过展示用于其视频生成的三维摄像系统已经取得了一些进展,但交互性仍然受到严重限制。

在同一时期,(隶属于谷歌的)DeepMind的Genie 将这项技术提升到了一个新的水平。

当用户提供一张图像作为提示时,Genie能够生成具有实时物理效果和空间记忆功能的交互式二维世界。

从技术层面来讲,Genie使用了一种称为时空视频标记器的自回归动力学模型,以及一种可扩展的潜在动作模型,从而能够在无需用于训练的标记动作数据的情况下实现逐帧交互。

用户只需要描述一个 “带有秘密通道的闹鬼城堡”,然后立刻就能拥有一个完全可玩的关卡,而无需具备特殊的领域或类型知识。

“世界模型”这一概念终于首次开始名副其实了。

·转折点(2024年至2025 年)

2024年:DeepMind的Genie 2

2024年,创新的步伐急剧加快,这标志着一个转折点,此时人工智能世界模型开始从实验性的研发阶段向成为游戏开发者的实用工具转变。

如今,通过众多新老竞争者,生成式三维互动虚拟世界正逐渐成为现实。

在其前身的基础上,Deepmind的Genie 2引入了更精细的环境交互,并扩展了多模态输入。

它还实现了向具备更强大的物理效果和动画效果的3D环境的跨越,涵盖第一人称、第三人称视角的游戏,甚至包括像驾驶和航海这类基于载具的游戏。

这个版本还支持更具动态性的交互,比如戳破气球、引爆木桶以及爬梯子等。

Deepmind已经展示了多种不同的演示,但该模型尚未向公众开放,而且在超过一分钟的交互时间后就缺乏稳定性。

在世界模型方面的一个重大改进是其 “长时记忆”,这使得它能够记住场景的某些部分,以便在这些部分离开视野后再次出现时能被准确地渲染出来。

2024: GameNGen

另一个有趣的突破是游戏生成器(GameNGen,来自谷歌的另一个研究团队),它使用了一个神经游戏引擎,该引擎充当一个 “有生命的” 开发平台,能够实时调整游戏元素。

该系统通过以超过每秒20帧的帧率模拟经典游戏《毁灭战士》进行了展示,在玩家通关过程中生成一个不断扩展的游戏环境。

游戏生成器(GameNGen)结合使用了强化学习(通过一个人工智能智能体在玩游戏时收集数据)以及对生成式扩散模型的训练,以渲染游戏环境。

更具体地说,这个扩散模型是建立在Stable Diffusion 1.4的基础上,并且经过巧妙修改,用之前的游戏画面帧(结合训练智能体的动作输入)取代了常规的文本提示。

通过这种方式,生成的新画面帧与之前的游戏画面帧以及玩家的动作保持同步。

2024:腾讯的GameGen-O

作为世界上规模最大的游戏公司之一,腾讯正在开发GameGen-O。该项目最近暗示了大规模内容生成的未来走向,其目标是利用扩散Transformer 模型来打造开放世界游戏。

腾讯的开放世界视频游戏数据集(OGameData)基于100多万个多样的游戏玩法视频片段构建而成,这些片段配有由GPT-4o 生成的信息丰富的字幕。

目前的演示时长仅持续几秒,尽管在视觉效果上令人印象深刻,但目前还无法做到实时呈现。不过,鉴于腾讯希望旗下工作室能够使用前沿技术,这个项目还是值得关注的。

2024年:借助生成式人工智能和DIAMOND 拓展应用场景

经过几年的研发,人工智能模型不再局限于玩游戏,而是发展到能够创作游戏。

另一个学术模型——DIAMOND(将扩散模型作为环境构想模型,DIffusion As a Model Of eNvironment Dreams)于2022年登上舞台。

DIAMOND运用了扩散技术,这与Stable Diffusion 和Midjourney等流行图像生成器所使用的方法相同,通过迭代优化图像,就如同一位艺术家为游戏世界绘制超逼真的背景一样。

这使得DIAMOND能够预测并生成高保真的视频模拟内容,其中包括一个可玩的《反恐精英:全球攻势》模拟环境。

该模型创建逼真场景的能力,使其成为视觉效果丰富的模拟领域的变革性力量,不过在交互性方面不一定如此。即便如此,世界模型有朝一日在游戏开发中可能发挥的作用也变得更加清晰了。

此外,DIAMOND于2024 年发表的论文成为2024 年神经信息处理系统大会(NeurIPS 2024)的重点展示内容,在训练模拟3D 环境方面取得了重大进展。

2024年:德卡特(Decart)的 “绿洲”(Oasis)

再举一个例子,德卡特(Decart)和埃奇(Etched)打造了 “绿洲”,作为一个类似《我的世界》(Minecraft)的生成式交互式世界模型的技术演示。

“绿洲” 是首个可供公众体验的此类演示,它接收用户的键盘输入,并生成基于物理原理的实时游戏玩法,玩家可以移动、跳跃、拾取物品、破坏方块等等。

其世界模型能够理解诸如建造、光照、物理原理和物品栏管理等游戏元素。

这个模型由两部分系统构成,分别是基于变换器(transformer)的空间自动编码器和潜在扩散主干网络。

它是使用来自VPT 的开源数据进行训练的,VPT是由OpenAI发布的、采用麻省理工学院许可证的开源《我的世界》数据集。

和上述提到的《毁灭战士》的GameNgen 演示一样,这个演示的运行帧率也为每秒20帧,但它还支持玩家的实时输入,并且在一块定制芯片上运行。

2024年:世界实验室(World Labs)

由著名人工智能研究员李飞飞创立的世界实验室(World Labs),最近也推出了能将二维照片转换为空间连贯的三维环境的工具。

所展示的这些环境可在浏览器中实时渲染,通过WASD键和鼠标进行控制,具备诸如景深相机效果、可调节视野(FOV)的推拉镜头缩放,以及正确的物理几何形状等功能。

与逐帧模型不同,世界实验室能同时生成完整的三维场景,具有稳定的持续性,并且支持玩家实时操控。其三维场景是通过像素深度图生成的,从图像中预测出三维几何形状,并将其转化为一个保持物理一致性的世界模型。

2025年:奥德赛(Odyssey)

最后,奥德赛的“探索者”(Explorer)系统与“绿洲”(Oasis)类似,但由于它是基于用定制相机拍摄的真实世界360度影像进行训练的,所以它更适用于利用高斯散点绘制逼真场景。

用“探索者”创建的场景不包含实时游戏玩法或机制,而是根据文本提示生成场景,这些场景可以导入到虚幻引擎、Blender或After Effects 中,用于游戏或媒体制作。

该团队正借助其在自动驾驶汽车领域的背景,以及专有的3D 数据收集技术,将其作为模型的竞争优势。

2025年:微软的MUSE(多模态通用场景引擎)

为了不输给初创企业,微软推出了自己的世界模型,该模型可用于生成电子游戏场景和环境,且这些场景和环境会根据玩家在游戏控制器上的操作而变化。

MUSE是由微软的研究人员以及其Xbox 游戏部门的员工,利用长达七年的Xbox 游戏《超猎都市》的游戏玩法录像进行训练的。

微软将这项技术定位为并非要取代传统游戏设计,而是对其进行增强。

这个模型旨在成为游戏开发者的工具,并且未来有一天可能会被用于加快游戏开发进程,或者创建为个人玩家定制的游戏。

从数据的角度来看,这是合理的。

得益于微软的Xbox生态系统以及对动视暴雪的收购,对于微软来说,游戏视频结合人类操作(比如键盘或控制器输入)的意义,就如同YouTube 对于谷歌的Veo2 的意义一样重要。

最后再提几个值得关注的成果:OpenAI的Sora 视频模型也能够呈现出类似游戏的体验,而xAI 的Grok 也在助力实现虽简易但快速的游戏原型设计。

·对未来的预测

在世界模型这样快速发展的领域,对即将出现的技术进行预测并非易事。

对于投资者而言,看清当下往往比预测未来更现实、更有帮助。本着这种精神,我们走访了领先的世界模型初创企业和研究实验室,了解他们的想法。以下是我们在交流中反复出现的一些看法:

1)世界模型在短期内不太可能取代大型3A视频游戏。相反,它们将带来全新的、“以前不可能实现的体验”

随着这些技术不断取得重大进展,我们认为,成功的方法将反映在互联网或移动等历史上类似的范式转变中。

人工智能带来的效率提升和成本降低很有趣,也很重要。但真正的突破不会仅仅是对现有产品的改造或合理化;它们将从根本上、原生地为全新的、以前不可能实现的体验而构建。

对于世界模型来说,这样的体验可能包括:

把玩一本书或一张照片(例如,真正沉浸于你喜爱的文本或一段家庭记忆)

实时导演一部电影(即在电影播放时对其进行修改,就像《黑镜:潘达斯奈基》的实时版)

用无限的滤镜或风格转换来增强自拍视频或视频通话效果(就像Snap 的滤镜,但不限于 “手工制作” 的选项)

这些新体验将由非凡的创始人打造,他们凭借直觉(通常还有专有知识)形成独特的见解和想法。

2)状态性和内存限制问题需要通过渐进式创新,才能构建出具有长期吸引力且能留住用户的虚拟世界

当前,大多数世界模型能够生成高度精细的环境,但缺乏持续性的状态建模,而这是传统电子游戏的一个基本要素。

与那些会随着时间推移记录玩家进度、物品栏情况以及世界变化的 “手工打造” 的游戏引擎不同,如今的世界模型独立地生成新的画面帧或场景,没有底层的内存结构支持。

这一限制使得它们无法支持诸如逐步的关卡变化、长期的因果关系,或是非线性叙事这类复杂的机制。

如果在状态性架构方面没有取得突破,世界模型相较于真正的交互式游戏世界而言,仍将更适合用于动态模拟。

3)就游戏领域而言,世界模型可能会被人工智能自动化的“传统”基于算法和引擎的游戏体验所超越

随着人工智能在自动化代码生成以及创建3D资产方面的能力不断提升,对现有的游戏设计流程(使用诸如虚幻引擎或Unity这样的游戏引擎)进行自动化处理,可能会被证明优于概率性的实时视频生成模型。

如今甚至已经有了一些混合模式的实验:

1.世界模型:二维呈现方式,根据用户输入预测下一视频帧画面。

2.人工智能自动化传统设计:三维呈现方式,利用代码和资产来提供具有状态性的游戏体验。

3.混合模式:使用 “灰盒” 三维呈现方式进行状态性建模,并确保空间和时间上的完整性,然后在其基础上应用视频模型(比如风格转换)。

人工智能对传统基于代码和资产的游戏创作进行自动化处理(比如下图的飞行模拟游戏),最终可能会比世界模型更占上风。

4)“多人世界模型”即将问世

多人世界模型带来了巨大挑战,但采用合适的架构方法,其仍然是可行的。

核心难点在于,在利用本质上具有概率性和动态性的生成模型时,要在多个玩家之间维持一致且同步的世界状态。与基于确定性状态更新运行的传统多人游戏不同,世界模型引入了可变性,这可能会导致不同步和不一致的情况。

不过,诸如服务器端权威模型、将生成式人工智能与确定性物理原理相结合的混合方法,以及高效的数据流式传输等技术,或许可以缓解这些问题。

虽然我们还没有在实际中看到多人世界模型,但我们听说它们已近在咫尺。

5)法律和版权方面的考量不容小觑,而且甚至更为复杂

随着世界模型日益复杂,它们引发了复杂的法律和伦理问题。

程序生成的资产的权利归谁所有?如果一个基于现有电子游戏进行训练的模型输出了与已知知识产权高度相似的内容,这是否构成版权侵权?

例如,DeepMind的Genie可以基于视频输入生成交互式游戏关卡,这引发了人们对衍生作品的担忧。

同样,GameGen-O和GameNgen能够根据文本提示合成可玩的游戏体验,可能会在不知不觉中生成与现有游戏系列相似的资产。

游戏工作室、发行商和监管机构将需要在快速变化的法律环境中摸索前行,在这种环境下,传统的知识产权框架可能不再够用。

就目前而言,要预测在人工智能规则下,如何在如此复杂的体系中划定法律界限,实在是难上加难。

6)要训练出令人信服的世界模型,需要具备用于保证空间和时间一致性的三维数据集

如今,大多数生成式人工智能模型主要是在二维数据集上进行训练的,这限制了它们在完全构建好的三维环境中维持空间和时间一致性的能力。

游戏和模拟需要对物体恒存性、遮挡、物理交互以及长期状态变化有深入的理解,而这些都是在二维数据集上训练的模型所难以应对的挑战。

例如,DeepMind的Genie可以生成交互式游戏场景,但由于没有原生的三维训练数据集,它在渲染深度、物体交互或持续的物理状态时会面临不一致的问题。

为了实现真正的空间和时间连贯性,未来的世界模型很可能需要大规模的三维数据集,这些数据集可能来自真实世界的扫描、合成环境或高保真的游戏引擎。

这只是时间问题。

7)只有模拟而没有可玩性,无法长期吸引和留住用户

虽然世界模型在模拟环境方面表现出色,但要将其转化为引人入胜、结构合理的游戏体验,仍然是一项重大挑战。

能够生成无限的景观或动态NPC,并不一定会自然而然地带来有趣、平衡或有意义的玩家体验。

一款引人入胜的游戏需要精心设计的关卡、等级提升系统和玩家自主能动性,而这些都是单纯的程序生成难以保证的元素。

例如,奥德赛(Odyssey)可以生成广阔的可供探索的世界,但要确保其中有连贯的任务结构或有意义的挑战,仍然需要人为干预。

未来的发展可能会涉及混合方法,即由人工智能生成的世界在精心策划的设计原则的指导下构建。

8)可扩展性和计算效率将不断提高

训练和运行大规模世界模型的成本仍然是其广泛应用的主要障碍,但人工智能效率的提升正开始改变这一局面。

在过去五年中,生成模型在成本效益方面有了显著提高,其架构经过优化,可降低功耗并提高推理效率。

例如,德卡特的 “绿洲”(Decart Oasis)开创了新的GPU高效技术,降低了实时世界生成的计算要求。与此同时,量化和模型蒸馏技术的进步使得在消费级硬件上运行复杂的模拟成为可能。

随着这些趋势的持续发展,世界模型不仅对大型游戏工作室可行,对独立开发者甚至实时应用程序也可能变得可行。

9)世界模型在短期内最有价值的应用场景可能在游戏领域之外,比如在机器人技术中

世界模型的直接应用场景远远超出了传统的游戏环境。

例如,在机器人技术中,它们可以为实时交互式视频模型提供动力,这些模型能够动态地理解并对复杂的环境做出反应,从而为更直观、自适应的机器人系统铺平道路。

世界模型并非游戏领域中唯一具有重大意义的人工智能趋势,但很可能我们仍然低估了它的长期影响。

就目前而言,我们预计市场将继续快速发展,聪明且富有创造力的团队将找到方法,利用这些新兴工具更好地开发他们自己的游戏和业务。

来源:罗斯基

相关推荐