世界模型：大语言模型之后的人工智能新前沿

摘要：我们知道，人类在进化过程中具备了两方面能力，标志着人类智慧的出现，从而能够与动物区别开来，成为万灵之首。一方面是语言作为思维的工具，帮助我们进行推理、组织知识和彼此交流；另一方面是我们的世界观，人类对周边环境的感知和认识。

我们知道，人类在进化过程中具备了两方面能力，标志着人类智慧的出现，从而能够与动物区别开来，成为万灵之首。一方面是语言作为思维的工具，帮助我们进行推理、组织知识和彼此交流；另一方面是我们的世界观，人类对周边环境的感知和认识。

人工智能发展过程中，不断模仿人类智能，OpenAI GPT、Meta LlaMa、百度文心、阿里通用千问等都属于大语言模型，体现了在语言、推理、思维等方面的重大突破。另一方面，世界模型则代表了人工智能在模仿人类世界观方面的努力。

世界模型对于人工智能发展意义重大。世界模型的突破，将意味着机器人文明的开始。世界模型已经成为大语言模型之后的人工智能新前沿。

为什么要构建世界模型？

深度学习之父Yann LeCun（杨立昆）是世界模型(World Models)的坚定支持者。杨立昆认为，人类和动物能够通过观察，简单的交互，以及无监督的方式学习世界知识，这蕴含的潜在能力构成了常识的基础。这种常识能够让人类在陌生的环境下完成任务。但是目前的AI，往往只在训练过的环境中可以有效工作，一旦到陌生环境下往往出现失误。这表明了人工智能和人类智能存在着巨大的认知鸿沟。

世界模型可以通过模拟人类感知和决策过程，为系统提供预测和适应动态环境的能力，具有弥合人类和机器智能之间认知鸿沟的巨大潜力。世界模型可以为更复杂的自动驾驶等应用场景提供一条实现路径。

什么是世界模型？

当在人工智能中谈到世界/World、环境/Environment的时候，通常是为了与智能体/Agent进行区别。强化学习和机器人是研究智能体最多的两个领域。World Models、World Modeling最早最常出现在机器人领域的论文中。

从定义来看，世界模型是人工智能系统内部构建的一种抽象表示，用于描述、理解和预测外部环境的状态及其变化。它融合了AI系统从传感器接收的原始数据（如图像、声音、触觉等），通过复杂的处理和分析，形成对外部世界的全面认知和预测。

在具体实现中，世界模型可以以多种形式存在，如概率模型、物理模型、生成模型等。每种模型都有不同的结构和特性，但其核心目标是通过对历史数据的学习和理解，形成对未来事件和状态的预测。

世界模型的发展历程

世界模型的概念最早可以追溯到上世纪六十年代，随着AI技术的不断发展，世界模型也经历了从简单到复杂、从静态到动态、从单一到多元的演变过程。

1.早期模型（1960s-1980s）

早期的世界模型多集中在符号主义AI和认知科学中，如情境演算和TOTE（Test-Operate-Test-Exit）模型。这些模型通常以控制论的规则和逻辑为基础，模拟人类的推理和决策过程，但由于计算能力和数据的限制，它们在处理复杂、动态环境时表现欠佳。

2.概率模型与物理模拟（1990s-2010s）

随着统计学习方法的兴起，概率模型开始应用于世界建模，如马尔可夫决策过程（MDP）和粒子滤波器。同时，基于物理学的模型如动力学模拟，也在机器人控制和仿真中得到应用。然而，这些模型依然面临高维度数据和复杂环境下的挑战。

3.深度学习与生成模型（2010s-至今）

深度学习的突破推动了世界模型的飞跃发展。通过神经网络，特别是递归神经网络（RNN）、生成对抗网络（GAN）和变分自编码器（VAE），AI系统能够从大量的感知数据中自动学习环境的高维表示。这种方法极大地增强了模型在复杂任务中的适应性和泛化能力，如自动驾驶和游戏AI中的应用。递归神经网络（RNN）的集成尤其具有变革性，标志着向能够进行时间数据处理的系统迈进，这对预测未来状态和实现抽象推理至关重要。

2018年，谷歌大脑研究科学家David Ha与瑞士AI实验室IDSIA负责人Jürgen Schmidhuber（他也是 LSTM 的提出者）在论文“世界模型（World Models）”（文末下载）中共同提出：世界模型可以让人工智能对外部环境的未来状态进行预测，大幅提高完成任务的效率。该项工作通过利用混合密度网络（MDN）和RNN，阐明了无监督学习提取和解释环境数据中固有的空间和时间模式的途径。此后，关于世界模型的学术论文大量增长，成为AI领域研究热点。

世界模型的核心作用

世界模型的核心作用就是反事实推理/Counterfactual Reasoning。即使对于数据中没有见过的决策，在世界模型中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词，在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯，最下层是“关联”，也就是今天大部分预测模型主要在做的事；中间层是“干预”，强化学习中的探索就是典型的干预；最上层是“反事实推理”，通过想象回答what if问题。

图：Judea书中的因果阶梯

Judea为反事实推理绘制的示意图，是科学家在大脑中想象，这与Jurgen在论文中用的示意图异曲同工。

图：Jurgen论文中的世界模型示意图

在人工智能（AI）的广阔领域中，世界模型作为AI系统对外部世界的内部表示和预测机制，扮演着至关重要的角色。有了世界模型，就可以超越数据，进行反事实推理，回答What If问题。世界模型不仅是AI认知、学习和控制环境的基础，也是实现更高级别智能任务（如自动驾驶、游戏AI、复杂决策系统等）的关键技术之一。

世界模型的分类

不同领域场景需要不同类型的世界模型。以下介绍在视频生成、自动驾驶、通用智能体和机器人领域世界模型的应用情况：

1.视频生成领域

在视频生成领域，有多种流行的生成方法，包括GAN、Diffusion扩散模型、自回归、掩码建模等，从下图的时间轴研究进展来看，进入2024年，基于扩散模型的方法占据了主导地位，Sora也是采用了扩散模型作为基础生成方法。

（a）GAN （b）扩散模型（c）自回归（d）掩码建模

2.自动驾驶领域

在自动驾驶领域，世界模型在最近两年也是常见词，从下图中可以看出，2023和2024年集中出现了一批基于世界模型的端到端模型、2D/3D生成方法：

3.通用智能体和机器人领域

同时，在通用智能体和机器人领域，基于世界模型的相关研究也非常丰富，涉及递归状态空间模型RSSM、Transformer、联合嵌入预测架构JEPA、Diffusion等模型。其中，JEPA是杨立昆力推的算法，他也多次在演讲中表示对世界模型潜力的极大关注，并预言世界模型将会取代自回归模型成为新一代智能系统的基础。

世界模型的架构

世界模型的架构旨在模仿人脑的连贯思维和决策过程。基于世界模型，杨立昆提出了自主智能系统的体系架构，包含6个核心模块：

1. 配置器（Configurator）模块：

配置器是协调指挥中心，负责协调、配置和执行其他模块。

2.短期记忆(Short Term Memory）模块：

负责跟踪当前和预测的世界状态以及相关成本。与人类海马体类似，记忆模块可用于记录和管理过去、现在和预测的世界状态及其相关成本或回报。它通过回放最近的经历来支持短期和长期记忆功能，这一过程通过将过去的见解融入未来的决策来增强学习和适应。该模块综合和保留关键信息的能力对于深入了解一段时间内的环境动态至关重要。

3.感知（Perception）模块

感知模块类似于人类的感官，由配置器调用，负责感知世界状态和提取任务相关信息。它采用先进的传感器和编码器模块，如可变自动编码器（VAE）、Masked自动编码器（MAE）和离散自动编码器（DAE），将环境输入（图像、视频、文本、控制命令）处理和压缩为更易于管理的格式。该模块的有效性对于准确感知复杂动态环境至关重要，有助于详细了解模型的后续预测和决策。

4.世界模型（World Model）模块

世界模型模块主要的职责是估计Perception未提供的关于世界状态的缺失信息，并预测合理的未来世界状态，比如预测由 Actor 模块提出的一系列动作所导致的未来世界状态。通过模拟潜在的未来场景，该模块使系统能够主动准备和调整其策略，反映人类认知中的预测性和适应性思维过程。

5.角色（Actor）模块

角色模块负责寻找最优的行动方案。该组件直接负责通过动作与环境进行交互。它评估当前状态和世界模型提供的预测，以确定旨在实现特定目标的最佳行动顺序，例如最小化成本或最大化回报。该模块的复杂性在于它能够集成感官数据、记忆和预测见解，从而做出明智的战略决策，应对现实世界场景的复杂性。

6.成本（Cost）模块

成本模块负责计算智能体的不适值（discomfort），目标是最小化内在成本的未来值。

这些组成部分共同形成了一个强大的框架，使世界模型能够模拟类似于人类的认知过程和决策。通过集成这些模块，世界模型实现了对其环境的全面和预测性理解，这对于开发能够以前所未有的复杂度在现实世界中导航和交互的自主系统至关重要。

世界模型的应用场景

1.强化学习

在强化学习领域，世界模型被广泛应用于提高学习效率和泛化能力。通过建立基于模型的方法，AI系统可以在虚拟环境中进行大量试错和学习，而无需直接在实际环境中操作。这不仅可以减少物理资源的消耗，还可以加速学习过程，提高算法的收敛速度和稳定性。

例如，Model-Based Reinforcement Learning（MBRL）方法通过训练一个世界模型来模拟环境的动态，然后在该模型上进行策略优化，从而减少对真实环境的直接操作。这种方法在复杂系统中，如机器人控制和自主导航中表现出色。

2.计算机视觉

在计算机视觉领域，世界模型被用于构建基于生成对抗网络（GAN）的图像生成和理解模型。通过训练GAN模型，AI系统能够生成高质量的图像样本，并学习图像中的结构和特征表示。这些表示可以用于后续的图像识别、分类、分割等任务，提高视觉系统的性能。

此外，世界模型还被应用于3D重建和场景理解中，通过对多视角图像的联合分析，生成对真实世界的三维表示，如SLAM（Simultaneous Localization and Mapping）技术在机器人视觉导航中的应用。

3.自动驾驶

自动驾驶系统需要构建一个复杂而精确的世界模型，以应对复杂、动态、不确定的驾驶环境。这个世界模型需要包括道路结构、交通规则、车辆行为、行人动态等多种信息，并能够实时更新和预测。通过世界模型的支持，自动驾驶系统能够做出更安全、更合理的驾驶决策，提高驾驶的舒适性和合法性。

例如，Tesla的自动驾驶系统通过多传感器融合（如摄像头、雷达、激光雷达），构建实时的3D世界模型，用于路径规划和避障。这种世界模型能够在动态环境下，预测其他道路使用者的行为，提前采取应对措施。

4.游戏与影视制作

在游戏和影视制作领域，世界模型被用于生成可交互的虚拟环境和角色。例如，DeepMind团队发布的Genie模型就是一个基于世界模型的交互式环境生成模型，能够生成具有丰富细节和动态变化的游戏关卡或影视场景。用户可以对这些场景进行逐帧控制或修改，实现高度自定义的创作体验。

这些世界模型不仅提高了内容生成的自动化程度，还能够通过用户的交互反馈不断优化和进化，使虚拟世界更具沉浸感和真实性。

世界模型的优势与挑战

世界模型已经在多个领域取得一定进展，但距离全面突破还有一些距离，面临多个方面的挑战。

1.优势

有一定泛化能力：世界模型能够从有限的感知信息中推测出全局状态，并在未知环境中做出合理预测。这种能力对于AI系统在复杂、不确定环境中的表现至关重要。

增强决策质量：通过预测未来的环境变化，世界模型为AI提供了更为详尽的决策依据，使AI能够做出更加优化的选择，尤其在多步骤、多目标决策任务中，表现尤为突出。

加速学习过程：在强化学习中，世界模型能够减少实际环境中的探索需求，通过在虚拟模型中进行模拟和训练，大幅降低时间成本和资源消耗，提高学习效率。

2.挑战

建模复杂度高：随着环境复杂度的增加，世界模型需要处理的信息量和状态空间也急剧膨胀。这对模型的表示能力和计算资源提出了更高要求，特别是在实时系统中，如何平衡模型的精度和计算效率成为一大挑战。

数据依赖性强：世界模型的构建高度依赖于高质量的感知数据。然而，在实际应用中，传感器数据可能存在噪声、缺失甚至错误，这将直接影响世界模型的准确性和可靠性。

泛化能力有限：虽然世界模型在特定环境中的表现优异，但在迁移到新的环境或任务时，其泛化能力可能受到限制。特别是当新环境与训练环境存在较大差异时，模型的预测效果可能显著下降。

世界模型的未来展望

随着AI技术的不断进步，世界模型将在越来越多的领域中扮演关键角色。未来的发展方向包括：

多模态融合：通过融合视觉、听觉、触觉等多种感知信息，构建更为丰富和精确的世界模型，使AI系统能够在更加多样化的环境中进行操作和决策。

自适应模型：开发能够动态调整和进化的世界模型，使其能够更好地适应环境的变化和任务的转移，从而提高模型的泛化能力和适应性。

高效计算：探索新的算法和硬件架构，以提高世界模型的计算效率，使其能够在实时、嵌入式系统中运行，同时保持高精度的环境表示和预测能力。

人机协作：通过将世界模型与人类的经验和知识结合，开发出能够与人类协同工作的AI系统。这种系统不仅可以帮助人类在复杂环境中做出更好的决策，还能够从人类的反馈中不断学习和优化。

来源：人工智能学家

标签：模型人工智能语言

本文地址：http://news.43b.com.cn/a/53394.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐