因果涌现与“时间倒流”:我们如何通过忽略信息让世界更加可逆?

B站影视 韩国电影 2025-11-17 16:38 1

摘要:因果涌现与“时间倒流”:我们如何通过忽略信息让世界更加可逆?

从微观可逆到宏观不可逆

在我们的日常经验里,宏观世界明显是不可逆的:杯子打碎后不会自动恢复原状,热量也总是从高温物体流向低温物体。这种现象正是热力学第二定律告诉我们的:自然界的过程总是朝着熵增的方向进行,时间之箭不可逆转、永远向前。

然而,令人惊讶的是,在微观尺度上支配粒子运动的基本物理定律,例如牛顿力学或量子力学,在形式上却往往是时间可逆的。从理论上讲,如果我们把微观世界的物理演化过程倒着播放,整个过程依然完全符合这些基本方程。这种“微观可逆”和“宏观不可逆”的对比,形成了一个耐人寻味的反差。

我们的研究发现,在这种反差下,面对不可逆的宏观世界,智能体(无论是人类还是人工智能)会主动构建一种尽可能“可逆”的世界模型,以便更有效地对抗世界的熵增,从而更好地预测环境、适应环境。这是怎么回事儿呢?

因果涌现

让我们从因果涌现理论谈起。这是一套由美国神经科学家Erik Hoel提出的基于因果和信息的涌现理论,它并不试图用简单规则复现各种涌现现象,而是以定量化的手段直接量化什么是涌现。该理论认为:只要一个系统能够在宏观尺度展现出比微观尺度更强的因果效应的时候,该系统就发生了因果涌现。那这里说的“因果效应”是指什么呢?不妨看看鸟群运动的例子。

如图1所示,我们有两种描述鸟群运动的方法。第一种是只看鸟群整体的重心如何运动,也就是宏观动力学模型;第二种是模拟鸟群中每只鸟的移动轨迹,也就是微观动力学模型。两种方法分别会计算出一个“有效信息(EI)”的数值,用来衡量在对鸟群系统施加干预(因变量)后,系统运动轨迹(果变量)能够多大程度上被预测,这个值就是因果涌现理论中的“因果效应”强度。然后我们对鸟群施加干预,比如改变风向/风速、设置障碍等,计算出宏观动力学模型(F)和微观动力学模型(f)的EI值,如果EI(F)>EI(f),说明宏观层面比微观层面拥有更强的因果力,这就构成了因果涌现。


图1:因果涌现的理论框架(EI即有效信息,它可以度量一个动力学的因果效应强度)

进一步,我们的研究发现[1],这个因果涌现的理论框架不仅可以刻画涌现现象,它还可以用来描述一个智能体如何构建外部世界模型的过程。

世界模型

原来,无论是人类还是人工智能,他们为了更好地在所在的世界中生存,就不得不在自己的大脑中构建一个外部环境的“世界模型”(World Model,这是指智能体构建的一个描述外部环境的模拟动力学模型,它可以被单独地训练,也可以用于指导智能体的规划。典型的代表就是DeepMind所提的Dreamer系列模型,见Nature论文[2]),如图2所示。这个时候,外部世界所遵循的不可逆物理规则就可以看作是类似单个鸟的“微观动力学”,而智能体在头脑内模拟的“世界模型”,就可以看作类似于鸟群重心所遵循的“宏观动力学”。而智能体从对外部世界的观察抽象成世界模型,则可以看作是因果涌现框架中从微观到宏观的粗粒化过程。于是,配备了世界模型的智能体刚好可以由因果涌现框架来描述。


图2:机器观察者的最大化有效信息

既然智能体可以任意地构造世界模型,那么,什么样的模型是好的呢?很明显,这个模型越能准确地预测环境的变化就越好。但是,仅仅有这一条原则还不行,模型不仅要能准确地预测变化,还要能够掌握外部世界变化的基本因果规律,这样,当智能体换了一个环境以后,世界模型仍然可以很好地运转——即模型的因果推理和泛化的能力要能够最大化。

这后一种能力就可以被概括为“最大化有效信息”(Effective Information Maximization,其中有效信息,简称EI,其实是对因果效应的一种度量,参见集智百科:有效信息 [3])原理——这一原理最早也是由Erik Hoel提出的,但它的目的是为了帮助人类观察者能够消除识别涌现现象的任意性。而我们的研究 [1] 则发现,它其实也同样可以用来指导神经网络的训练。当神经网络的训练既要追求预测的准确性,又要让有效信息最大化的时候,这种网络的学习效果往往更好,泛化能力也会更强。

于是,一个人工智能体,即使是一个最简单的神经网络,也可以被视为一个机器观察者,它仿佛正在数据的海洋中识别贝壳一般的涌现现象。由于它遵循了最大化有效信息原理,所以如果智能体能够正确地识别、把握有趣的涌现现象了,它的世界模型往往也会更强,这体现为它可以在各种不同的环境中都能预测好。

如果把人看作一个智能体,他(她)可能也是在试图最大化有效信息。一个不太严格的例子是,目前市面上有很多教中小学生的快速记忆法貌似也是利用了类似的原理:面对一组毫无关系的抽象词汇或数字,或一个长长的单词,你如果死记硬背每一个字符会很快崩溃——根本记不住。但是,如果你根据这些词生编硬造一个故事,那么你就会很容易记住这些词,而且还能倒背如流。这是因为,我们的大脑更容易记住具有因果含义的“故事”,而不是毫无因果联系的孤立单词。

所以好的世界模型,就是在保持预测精度的前提下,能够让有效信息最大化的模型,也就是因果效应最强的模型。

因果效应与可逆性的等价

那么,这一切又和可逆性有什么关系呢?我们团队的最新研究 [4] 指出,一个动力学的因果效应就等价于该动力学的可逆性,有效信息和动力学可逆性的程度密切相关。因此,一个追求最大化有效信息的智能体,也就是在追求一个可逆的世界模型。

更具体地说,这里所谈论的因果性主要是指对已经存在的因果关系的一种强度的度量,即因果效应强度。也就是当A与B具有明确因果关系的时候,你对A实施干预,则B就会明确地响应的程度。这种因果性的强度其实就和可逆性有关系了。为什么呢?

如果你把A与B之间的因果关系看作是一个函数,那么A发生则B也发生,A不发生则B也不发生就可以用一个函数映射来表示,如图3所示:


图3:因果关系与可逆映射

在这个函数关系中,每个变量都只能取0(代表不发生)和1(代表发生)两种可能值。则如果A发生,B确定性地发生;且A不发生,B确定性地不发生,那么A和B之间就建立了一个一一映射关系,f这个函数就是可逆的。这种可逆性可以体现为,如果我看到了B是否发生,我必然能够推断出A是否发生。由此可见,因果性本身就暗含了一种可逆的函数映射。

原因和结果如同精准的开关:按下开关灯就亮,灯亮了则必定是开关被按下。这种“有因必有果,有果必有因”的完美关系,代表着最强的因果效应。此时系统是“可逆”的——从结果能唯一且确定地反推出原因,整个因果链条清晰无比。

然而现实充满“噪声”:开关可能接触不良(干扰结果),导致按下不一定亮;或是有别人也在按开关(干扰原因),导致灯亮了却不知是谁按的。噪声让确定性下降、原因变得模糊。

假如当A发生的时候,B有很大的概率会发生,但是也会以一定小的概率(例如0.1的概率)不发生;反过来A不发生的时候,B会以较大的概率不发生,但仍然会以小的概率发生,如图4所示的情况:


图4:因果关系与近似可逆映射

这个时候,A和B的因果性就没有那么强了。而这个时候,系统也同样不那么可逆了。这是因为,当我看到了B是否发生,我不能一定地推断出A是否发生,但是我会以较大的概率推断A会发生。

由此可见,当你确保A与B存在着因果关系,且不存在其它影响变量的时候,A与B的因果效应强弱其实就与A到B的函数映射是否可逆有关。而对于一个动力学来说,我们完全可以把因果变量锁定到系统在前后两个时刻的状态,这样,前后两个时刻的因果效应越强(也就是有效信息越大),则该动力学也会越接近可逆的。在论文中[4],研究团队发明了一个近似可逆性的指标来刻画一个动力学接近可逆动力学的程度,并发现它与有效信息在绝大部分情形下都是正相关的。


图5:以高斯映射为例,呈现的因果效应强度与近似可逆动力学的相关性

我们以高斯映射(x_(t+1)=ax_t+ϵ,这里ϵ是一个高斯噪音,方差为σ)为例,展示了因果效应强度(有效信息J)与近似动力学可逆性(γ)的相关性,如图5所示,每张图的左侧为因变量的分布,右侧为果变量的分布。图5从左到右,因果效应逐渐增强,近似动力学可逆性也在增强。上下对应的两张图中的动力学相同,但是输入分布不同,因此它们的因果效应强度和动力学可逆性也都完全相同,即动力学可逆性只与动力学有关。

更重要的是,一个理想的模型会让智能体感觉时间是对称的:知道了原因,可以预测结果;看到了结果,也能回溯原因。尽管真实世界是不可逆的,但一个高度可逆的模型,却能帮助我们更清晰地描绘和理解外在世界的运行机制。

智能体的尴尬处境

然而,这里似乎存在一个根本矛盾:正如开篇所说,智能体面对的宏观世界毕竟是不可逆的,那么,智能体又怎么可能学习到一个近似可逆的动力学模型的呢?

答案就在于——粗粒化——实际上,智能体是通过忽略细节、进行归类(这个过程称为“粗粒化”),以完成在不可逆中构建可逆性的。也就是说,智能体会聪明地学会一种压缩世界的方式,使得压缩结果更加可逆。

但更加奇怪的一个事实是:简化、压缩其实就意味着丢失信息,这一过程本身就引入了不可逆性!这就好像我们为了记住一本小说的情节,只记录它的“故事梗概”。我们得到了整体脉络,却无法还原每一处细节对白。

玻尔兹曼告诉我们,之所以微观可逆,宏观不可逆,是因为粗粒化带来了信息损失,导致了观察者“观测”到了不可逆现象(言下之意,微观世界其实是可逆的,是观测者能力不够,才不得不面临熵增的世界)。而我们这里发现的是,一个智能体所做的,是在自己亲手打破的可逆性的宏观废墟上重建秩序——可逆性,如图6所示:


图6:智能体构建可逆性的过程

结语:智能体的第一性原理?

我们无法让真实的时间倒流,但通过因果涌现的视角——即在更宏观的尺度上捕捉那些稳定、可靠的因果关系——我们能够在认知中实现某种程度的“时间反演对称”。这种能力,让我们在一定程度上实现了“时间倒流”——从果推因,从未来回望过去。而这,也正是因果涌现的魅力所在:在混乱中寻找秩序,在复杂中看见简单,在不可逆的世界中,尽可能地“逆流而上”——恢复时间反演对称性。也许这就应该是一个智能体应所遵循的第一性原理吧。

[1] Yang, Mingzhe, et al. "Finding emergence in data by maximizing effective information." National Science Review 12.1 (2025): nwae279.

[2] Hafner, Danijar, et al. "Mastering diverse control tasks through world models." Nature (2025): 1-7.

[3] https://wiki.swarma.org/index.php/%E6%9C%89%E6%95%88%E4%BF%A1%E6%81%AF

[4] Zhang, Jiang, et al. "Dynamical reversibility and a new theory of causal emergence based on SVD." npj Complexity 2.1 (2025): 3.

作者:刘凯威

审核:张江 北京师范大学系统科学学院教授

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

来源:芳芳论科学

相关推荐