摘要:OpenAI 用大量人类游戏视频,预训练了一个神经网络,让其成功学会制作“金刚石”游戏工具。要制作这个工具包含 24000 个游戏操作,即使是熟练的《我的世界》玩家也需要超过 20 分钟才能完成。
截至目前,全世界最畅销的游戏是哪款?
自从 2010 年诞生以来,《我的世界》在全球卖出了超过 3 亿份,打破了《俄罗斯方块》的纪录,成为世界上最畅销的游戏。
《我的世界》
密集的真人玩家互动、高度开放性和自由度,让《我的世界》如今成为了 AI 公司们各种耍宝的一方热土。
你也许还记得之前 OpenAI 训练出了机器人玩家。
OpenAI 用大量人类游戏视频,预训练了一个神经网络,让其成功学会制作“金刚石”游戏工具。要制作这个工具包含 24000 个游戏操作,即使是熟练的《我的世界》玩家也需要超过 20 分钟才能完成。
更夸张的事情在上个月发生,一款名为 Oasis 的“游戏”使用了 OpenAI 的开源数据集,几乎一比一地复刻了《我的世界》的界面——然而,Oasis 并不依赖游戏引擎或者手工编写的代码,它的每一帧画面都由 AI 模型生成。
Oasis游戏界面丨Etched
Oasis 这个名字来自于欧内斯特·克莱恩 (Ernest Cline)的科幻小说《头号玩家》。被更多人熟知,是在2018 年,斯皮尔伯格将其改编成了电影。小说中,Oasis 是个虚拟的游戏世界,人们为了逃避混乱的现实,大部分时间都投入在这个足以乱真的世界中。Oasis 已经成为试图打造虚实难辨的体验的代名词。取名倒是足以见得它开发者的野心。声称“世界上第一款可玩的 AI 生成游戏”,真实体验到底如何?
不像绿洲,倒更像是《盗梦空间》
先说结论,眼下,你就可以通过浏览器就可以免费玩到 Oasis;但相信我,你玩不下去,或者说,没法玩……
与《我的世界》游戏操作类似,玩家可以在游戏里行走、跳跃、打破方块、打开库存和使用物品。Oasis 也理解复杂的游戏机制,如建筑、照明物理、库存管理、对象理解等。
放置非立方体块
模型理解照明物理
与动物互动
吃饭恢复健康
但不同的是,Oasis 的每一帧画面都是AI实时生成的。
尽管“AI 生成游戏”听起来很唬人,但从本质上来说,Oasis 和 Sora、Runway 使用技术类似,依赖于基于 Transformer 架构的扩散模型。
基于DiT的潜在扩散主干架构、基于ViT的变分自编码器、加速的轴向、因果、时空注意力机制、以及克服长序列模型发散问题的新策略丨Etched
不过那些文生视频产品的提示词是“文本”,像 Sora 根据文本一次性生成 60 秒的视频。Oasis 根据的“提示词”是玩家的键盘、鼠标操作和之前帧,生成下一帧。
也就是说,Oasis 生成画面也是逐帧的,因为在模型架构和推理技术方面的进步,使得 Oasis 延迟尽可能小,小到画面连贯起来(这与早期动画的原理类似,静止的图像以一定频率变化之后,因为视觉暂留的缘故,人会觉得画面动了起来),就能让 Oasis 产生“可交互、可操作”的效果。
《运动中的马》, Eadweard Muybridge,1879
发布3天左右,Oasis 的用户数量就突破了 100 万。汹涌而来的玩家使得服务器一度崩溃,即使到现在也不太稳定,甚至经常出现服务器断连的情况。
79小时内Oasis玩家数量增长情况|Decart
抛开不稳定的服务器和 10 分钟的限制不谈。从游戏体验而言,Oasis 基本还处于“不可玩”的状态。
玩家很快会发现,随着时间的推移,游玩 Oasis 会呈现一种劣质版《盗梦空间》的体验——敲碎一个砖块或者转动鼠标换个视野,地图就可能完全变成另外一个样子。
以自回归方式生成的每一帧都会累积细小的错误,随着时间的推移,这些错误就会像雪球一样越滚越大,使得画面很快就会和原始图像南辕北辙。
如何用 AI 生成一个连续的世界,克服幻觉,这其实是一个整个 AI 业界都在面临的难题。
为了改善这点,开发人员使用了一种称为“动态噪声”的技术。简单来说,他们在生成每个帧的早期阶段有意为图像数据添加一些随机噪声,以防止错误积累。随着 AI 模型对图像进行细化,这种人工噪声会逐渐被去除,使得画面保持与前一帧的一致性。
开发者也承认,第一个版本只是用于研究和概念验证,表明 AI 模型有潜力做到——跟那些视频生成工具一样,他们还无法解决生成连续画面的问题。
下一步,造芯片,赢过英伟达
Oasis 的开发者,是以色列初创公司 Decart 和硅谷芯片设计公司 Etched。
Etched 开发了一款名为 Sohu(搜狐?)的专用 AI 芯片,将 Transformer 架构刻录在芯片中。目前,Oasis 以 480p 的分辨率运行在英伟达的 H100 GPU 上。Etched 声称,相比英伟达,Sohu 会将性能提升 20 倍,可以以 4k 的分辨率处理 1000 亿参数的大模型。
Etched认为,Sohu芯片的性能会是H100的20倍丨Etched
当然,Sohu 的开发也还处于早期阶段,Etched 的说法目前无法得到证实。纽约大学电气和计算机工程教授 Siddharth Garg 就表示了质疑。他说,鉴于市场上顶级 GPU 的 AI 专业化程度,“对仅通过更智能或更专业的设计就能实现 10 倍的改进持怀疑态度。”
Dean Leitersdorf 毕业于以色列理工学院,在 2022 年结识了哈佛毕业生 Robert Wachen。受到OpenAI的启发,Wachen 在 2022 年联合创立了Etched,Leitersdorf 在2023年联合创立了 Decart。
在他们的设想中,Etched 会像英伟达一样构建下一代硬件,Decart 则像 OpenAI 一样开发运行在硬件上的模型。
Leitersdorf 表示,他们的目标是创造一个生成式体验的新时代。“你的屏幕可以变成一个门户——进入某个不需要编码、可以即时更改的虚构世界。”
“你的屏幕可以变成一个门户——进入某个不需要编码、可以即时更改的虚构世界。”丨Oasis
就像 LLMs 跨越了复杂的人类语言体系,让机器学会用人话和我们沟通。Oasis 大抵是想克服视觉障碍,学会像人类一样看世界,以及世界的运行机制,并以我们的视觉和交互习惯展示环境。
Leitersdorf 称,像 Oasis 这样的模型可以用于需要交互式视频的各种环境,例如娱乐、教育工具,甚至是 AI 驱动的创意媒体。
目前,风险投资公司红杉资本已经领投了 Decart 2100 万美元的种子轮融资,用真金白银表示了他们对于 Decart 愿景的认可。
来源:果壳一点号