Genie 3 生成 720p 虚拟世界!普通人 1 个月做出平替,像素版也能玩?

B站影视 欧美电影 2025-09-30 19:19 1

摘要:这个模型能够根据文本提示实时生成可交互的3D虚拟世界,720p分辨率、每秒24帧,

今年8月,DeepMind发布了Genie 3世界模型,

这个模型能够根据文本提示实时生成可交互的3D虚拟世界,720p分辨率、每秒24帧,

玩家可以用键盘操控在里面自由探索,Genie 3首次实现了实时交互,

同时在一致性和真实感方面都有显著提升。

很多人都觉得,这玩意儿离我们普通人太远了。

就在最近,一位网名叫anandmaj的程序员用一个月时间,从零开始复刻了Genie的核心思想,

做出了TinyWorlds,一个只有300万参数的世界模型,

TinyWorlds基于DeepMind的Genie架构构建,能够从无动作标注的视频中推断出帧间动作。

这个小模型能生成Pong、索尼克、塞尔达和毁灭战士这些经典游戏的像素版本,

虽然画面还有些模糊,但已经能玩了,说实话,这事儿的意义比表面上看起来更大。

简单来说,世界模型就是一种能通过生成视频来模拟物理世界的神经网络,

你可以把它理解成AI的"想象力"——它不是单纯地播放预录好的画面,而是根据你的操作实时"想象"出接下来会发生什么。

按下左键,镜头就往左移;进了一个房间,出来之后房间里的东西还在原位。

这些看似简单的交互,背后需要模型真正"理解"物理规则和空间关系。

在Genie之前,研究者们普遍认为要训练这种模型,必须给每一帧视频都标注上"按了什么键"这样的动作信息。

问题是,互联网上海量的游戏视频都没有这种标注,这就限制了模型的训练规模。

DeepMind将Genie 3视为通向通用人工智能的关键一步,

Genie系列的突破在于,它能从原始视频中自动推断出帧与帧之间发生了什么动作。

这样一来,那些没有标注的视频也能用来训练了,训练数据一下子多了几个数量级。

就像语言模型在海量文本中自然学会语法一样,世界模型在足够多的视频训练后,

也会自然"涌现"出对物理世界的理解能力。

水面会反光,离开房间再回来墙上的画还在,

这些都不是程序员手动编程实现的,而是模型从数据中学到的。

anandmaj做TinyWorlds的过程,其实就是把Genie的核心思路用最简化的方式实现了一遍。

他首先从YouTube上收集了一批经典像素游戏的视频,乒乓、索尼克、塞尔达、赛车和毁灭战士,

选这些老游戏不是偶然的——像素风格画面相对简单,对模型的要求低一些,更容易出效果。

接下来要解决的核心问题是:怎么让模型知道"按下某个键会发生什么"。

TinyWorlds的架构分成三个部分。

第一个是视频分词器,它把连续的视频画面切成一个个小块,转换成模型能处理的"token"。

这一步用了有限标量量化技术,能把图像信息压缩得很紧凑。

第二个是动作分词器,这是整个系统最关键的部分,

它的任务是看两帧画面,猜出中间发生了什么操作,一开始这个模块很容易"偷懒",直接忽略动作信号。

为了逼它学习,anandmaj用了一些技巧:随机遮盖某些帧,让模型必须依靠动作信息才能推断,

同时加入方差损失,鼓励模型编码出更多样化的动作类型。

第三个是动力学模型,也就是整个系统的"大脑",它把历史画面和动作信号结合起来,预测下一帧会是什么样子。

在设计选择上,anandmaj最终选了自回归模型而不是扩散模型,

原因很实际:自回归模型推理更快,适合实时交互,训练也更高效,代码实现也相对简单。

虽然扩散模型在生成质量上可能更好,但对于一个人在一个月内完成的项目来说,实用性更重要。

训练过程也不是一帆风顺的,

最初模型规模太小,生成的画面一片模糊,效果基本停滞。

扩大了参数规模之后,情况才有明显改善。

最终的300万参数在现在的标准下已经算很小了,相比一开始的版本已经是质的飞跃。

从表面上看,TinyWorlds只是一个能生成模糊像素游戏的小模型,离商用还差得远,

人工智能先驱们却几乎一致认为,世界模型对打造下一代人工智能正至关重要,

该技术终将助力创造超越人类的通用人工智能。

从这个角度看,TinyWorlds这样的开源项目,其实是在为更多人进入这个领域铺路,

更实际的一点是,不是所有应用场景都需要DeepMind那种级别的模型。

生成720p的高清3D世界很炫酷,但也很耗资源,

对很多实际应用来说,能生成简单但可控的2D环境就够了,

比如游戏关卡设计的原型工具,或者强化学习算法的训练环境。

TinyWorlds这种轻量级方案,在这些场景下反而更实用。

说到底,无论是Genie 3还是TinyWorlds,现在都还只是技术展示,

生成的世界虽然可以交互,可物理规律还是会出bug,画面也经常出现不连贯的情况,

真要拿来做一款能正式发售的游戏,还差得远。

也会带来新的问题:AI生成的内容质量怎么保证?

版权归属怎么界定?游戏设计师会不会失业?这些问题现在还没有答案,讨论已经开始了。

来源:靳律法谈

相关推荐