摘要:在AI竞赛日益激烈的当下,Google DeepMind再次推出了其最新的研究成果——Genie 2,一款能够生成各种可操控动作、可供玩耍的3D环境的大型基础世界模型。这一消息的发布,恰好赶在了OpenAI即将在未来12天内直播新发布和演示之前,为AI领域再添
在AI竞赛日益激烈的当下,Google DeepMind再次推出了其最新的研究成果——Genie 2,一款能够生成各种可操控动作、可供玩耍的3D环境的大型基础世界模型。这一消息的发布,恰好赶在了OpenAI即将在未来12天内直播新发布和演示之前,为AI领域再添一把火。
据了解,Genie 2只需一张提示图像,就能根据用户输入的文本提示,生成对应的交互式虚拟世界。无论是人类还是AI代理,都可以使用键盘和鼠标在由AI生成的3D游戏世界中自由探索和互动。这种前所未有的交互体验,无疑为AI领域的研究和应用带来了全新的可能性。
Genie 2的核心是一个自回归潜在扩散模型,它在大型视频数据集上进行训练。通过自动编码器处理后,视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与大语言模型类似的因果掩码进行训练,使得在推理时,Genie 2能够以自回归方式采样,逐帧获取单个动作和过去的潜在帧。为了提高动作的可控性,Google DeepMind还使用了CFG(无分类器指导)技术。
在Genie 2的博客文章中,展示了大量由未蒸馏的基础模型生成的视频示例,这些示例充分展示了Genie 2在行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC(非玩家角色)、物理、烟雾、光影以及快速原型设计等方面的卓越效果与优势。尽管蒸馏版本支持实时交互,但在运行时的视觉质量会略有降低。
Genie 2在模拟真实世界环境方面展现出了超强的空间记忆能力。它能够记住视野中不再存在的世界部分,并在它们再次可见时准确呈现。Genie 2还能够从同一起始帧生成不同的轨迹,为训练AI代理提供了模拟不同事实体验的可能性。
在与Genie 2互动的过程中,用户可以体验到智能响应键盘按键操作、生成反设事实、长视界记忆以及使用新生成的内容生成长视频等多种功能。例如,用户可以通过键盘和鼠标控制一个可爱的机器人,在由Genie 2生成的3D世界中自由移动和互动。Genie 2还能够模拟各种物体的相互作用,如爆破气球、打开门和射击炸药桶等。
除了以上功能外,Genie 2还能够模拟其他AI代理,甚至与它们进行复杂的交互。同时,它还能够模拟各种物理现象,如水效果、烟雾效果、重力以及灯光等。这些功能使得Genie 2成为了一个极具潜力的训练和评估具身AI代理的平台。
Google DeepMind表示,尽管这项研究仍处于早期阶段,但Genie 2已经展现出了解决安全训练具体AI代理的结构性问题的潜力。同时,它也为实现迈向通用人工智能(AGI)所需的广度和通用性迈出了重要的一步。未来,Google DeepMind将继续在通用性和一致性方面改进Genie的世界生成能力,为构建更通用的AI系统和代理做出贡献。
来源:ITBear科技资讯