预测编码推理与学习的理论框架

B站影视 日本电影 2025-04-13 07:08 3

摘要:预测编码(PC)是计算神经科学中一个具有影响力的理论,它认为皮层通过实现一个分层的预测误差最小化过程来形成无监督的世界模型。预测编码网络(PCNs)的训练分为两个阶段。首先,神经活动被更新以优化网络对外部刺激的响应。其次,突触权重被更新以巩固这种活动的变化——

本文多图,建议阅读10+分钟

本文中,我们专注于从理论上证明PC收敛到反向传播训练损失的驻点。

A THEORETICAL FRAMEWORK FOR INFERENCE AND LEARNING IN PREDICTIVE CODING NETWORKS

预测编码网络中推理与学习的理论框架:

摘要

预测编码(PC)是计算神经科学中一个具有影响力的理论,它认为皮层通过实现一个分层的预测误差最小化过程来形成无监督的世界模型。预测编码网络(PCNs)的训练分为两个阶段。首先,神经活动被更新以优化网络对外部刺激的响应。其次,突触权重被更新以巩固这种活动的变化——这一算法被称为预期配置。尽管以往的研究已经展示了在某些极限情况下,PCNs可以近似反向传播(BP),但最近的研究表明,在不近似BP的标准运行模式下,PCNs仍然能够获得与BP训练的网络相当的训练和泛化性能,并且在大脑已知擅长的任务(如在线学习、少样本学习和持续学习)中超越了它们。尽管PCNs在这种模式下表现出令人鼓舞的经验性能,但对其理论属性和动态的理解仍然很少。在本文中,我们提供了对使用预期配置训练的PCNs属性的全面理论分析。我们首先推导出有关PCNs的推理平衡的分析结果,并揭示了其与目标传播(TP)之间之前未知的密切联系。其次,我们将PCNs中的学习解释为广义期望最大化(EM)的一个变体,并利用这一点证明了PCNs能够收敛到BP损失函数的临界点,从而表明在理论上,深度PCNs可以实现与BP相同的泛化性能,同时保持其独特的优势。

1 引言

预测编码(PC)是理论神经科学中的一个重要理论(Friston, 2003, 2005; Mumford, 1992; Rao和Ballard, 1999),通常被视为皮层功能的潜在统一理论(Clark, 2015b; Friston, 2003, 2008, 2010; Hohwy, Roepstorff和Friston, 2008)。PC认为,大脑本质上是一个分层的预测误差最小化系统,通过预测感觉输入来学习一般的世界模型。从计算角度来看,PC理论可以通过预测编码网络(PCNs)来实现,PCNs深受人工神经网络(ANNs)的启发,并且可以在各种机器学习任务中与ANNs进行比较(Lotter, Kreiman和Cox, 2016; Millidge等人, 2022; Millidge等人, 2020; Song等人, 2020; Whittington和Bogacz, 2017)。与ANNs类似,PCNs是由神经活动和突触权重构成的网络,可以被训练来对任何类型的数据集执行函数近似,而不仅仅是预测未来的感官状态。与ANNs不同的是,在PCNs中,训练过程是通过将网络的输入和输出分别固定在训练数据和正确的目标值上,首先让神经活动更新到最小化整个网络的预测误差总和的配置。一旦神经活动达到平衡,就可以使用局部和赫布式更新规则来更新突触权重,从而巩固这种神经活动的变化。这种学习算法被称为预期配置(Song等人, 2022),因为活动更新似乎是前瞻性的,它们朝着每个神经元应该具有的值移动,以便正确分类输入。

以往的研究已经展示了在某些极限情况下(例如反馈信息的影响较小或在推理的第一步中),PC可以近似反向传播(BP),并且这种近似足够接近,能够以与BP相同的性能训练大规模网络(Millidge等人, 2020; Song等人, 2020; Whittington和Bogacz, 2017;见附录A.2的完整回顾和比较)。最近的研究(Song等人, 2022)还表明,在标准条件下,使用预期配置训练的PCNs也可以获得与BP相当的训练和泛化性能,并且在在线学习、少样本学习和持续学习方面具有优势。直观上,BP和PCNs中的学习差异在于,在BP中,误差是在输出层计算的,并通过网络依次向后传播。在PCNs中,首先有一个推理阶段,误差在整个网络中重新分配,直到收敛到平衡。然后,权重被更新以最小化在这个平衡处计算的局部误差。重要的是,这种平衡在某种意义上是前瞻性的:由于其迭代性质,它可以利用BP无法获得的其他层的活动信息,这种信息可以通过避免冗余更新来加速训练,而BP隐含地假设每个参数的更新与其他参数的更新是独立的。

然而,尽管随机梯度下降与BP的收敛特性已经得到了很好的理解,但目前尚未有对预期配置的理论特性有类似的理解。在本工作中,我们首次对PCNs的推理和学习阶段的属性进行了全面的理论研究。我们研究了推理阶段计算的平衡的性质,并在一个线性PCN中分析了其属性,在线性PCN中可以推导出推理平衡的解析表达式。我们表明,这种平衡可以被解释为网络的前馈传递值和目标传播(TP)计算的局部目标的平均值,其中平衡由反馈和前馈精度的比值控制。我们还表明,对于非线性网络,这种直觉也成立,尽管在这种网络中无法解析地计算推理平衡。此外,我们研究了这种网络中的学习特性,它与BP有所不同。我们提出了一个新颖的解释,即PCNs实现了具有约束期望步骤的广义期望最大化(EM),这补充了其通常作为变分推断的解释(Bogacz, 2017; Buckley等人, 2017; Friston, 2005)。此外,我们提出了一个统一的理论框架,使我们能够理解之前将PC和BP联系起来的不同结果,精确地阐明PC、TP和BP之间的联系,并且至关重要的是,证明了使用预期配置训练的PCNs将收敛到与BP相同的最小值。因此,我们表明,在理论上,PCNs至少具有与当前使用BP训练的机器学习架构相当的学习能力和可扩展性。

为了构建一个全面的PCNs数学理论,我们必须深入理解推理和学习。我们首先关注前者,并探索PCN中达到的推理平衡与BP(反向传播)和TP(目标传播)之间的联系。我们表明,PCN的推理平衡在BP和TP之间进行了插值,并且当数据对网络的前馈影响较大时,权重更新近似于BP,因此推理平衡接近于前馈传递值;而当目标的反馈影响较大时,它近似于TP。

我们首先考虑只有前馈输入进入网络的极限情况,这对应于网络的输出层未被固定(unclamped)。在这种情况下,很容易证明PCN的平衡活动等于一个等效人工神经网络(ANN)的前馈传递值。

实际上,我们还得到了一些更微妙的条件。上述证明还意味着,当反馈误差 ϵl+1→0 时,以及当激活函数的导数 f′ 相同(即使平衡活动与前馈传递值不相同)时,也会收敛到BP。总体而言,前馈对PCN的影响是将平衡活动拉向接近前馈传递值,从而使PCN近似于BP。这一结果与之前将PCN动态与BP联系起来的研究结果密切相关(Millidge, Tschantz和Buckley, 2020; Salvatori, Song等人, 2022; Song等人, 2020; Whittington和Bogacz, 2017),这些内容在附录6中有回顾。

接下来,我们考虑第二种极限情况,即只有反馈对PCN产生影响的情况。我们通过考虑“输入未约束”的情况来研究这一点,即PCN的输入层没有被固定到任何数据上。

然而,在PCN训练过程中,输入层被固定到数据上,而输出层被固定到目标值上。尽管对于一般的非线性网络,我们无法推导出平衡的解析表达式,但我们可以在线性情况下推导出平衡的解析公式。

尽管这些结果主要在线性情况下展示,我们也希望了解它们在非线性情况下在多大程度上成立。在图2B中,我们绘制了一个具有双曲正切(tanh)激活函数的3层非线性PCN的平衡活动与目标传播目标和反向传播梯度的相似性,并展示了在非线性情况下,与我们的线性理论预测一致的直觉仍然成立。

我们已经看到,平衡活动是由前馈和反馈影响的总和决定的。我们在图3A和B中通过实证展示了这里推导出的解析精度平衡是正确的,这些图表明线性PCNs能够快速且稳健地收敛到我们推导出的解析解。然而,我们尚未定义一种方法来改变这些影响的相对权重。然而,推导PCN的高斯生成模型确实为我们提供了一种精确的机制,通过利用高斯分布的逆方差或精度参数

来实现这一点,到目前为止,我们默许假设这些参数为单位矩阵。如果我们放宽这一假设,我们将获得一种新的活动精度加权动态(Whittington和Bogacz, 2017):

接下来,我们提出了一个用于理解PCNs学习阶段及其收敛特性的理论框架。我们的关键结果是,学习算法最终应该收敛到BP(反向传播)损失 L 的一个临界点。然而,为了做到这一点,我们需要开发一种替代性的数学解释,将PCNs视为期望最大化(EM)算法(Dempster, Laird和Rubin, 1977),这补充了PC作为变分推断的标准观点。

PC的最终目标是实现局部学习,使得网络的权重可以通过仅使用局部信息来最小化一个局部定义的损失来进行更新,但最终仍然能够最小化网络的全局(输出)损失。关于如何实现这一点的一个直觉是为每一层计算局部“目标”,其中理想的目标是能够最小化网络输出损失的局部活动值。如果我们有了这样的局部目标,那么局部学习将变得简单——我们只需更新权重以最小化层的活动与其局部目标之间的差异。由于每一层都有一个局部目标,所有信息都将局部可用。

根本问题是,我们不知道正确的局部目标。然而,给定输入数据值和标签,我们可以推断出每一层的正确局部目标。因此,最优目标的计算是一个贝叶斯推断问题。另一种思考方式是将其视为一个缺失数据问题。理想情况下,我们希望在最优局部目标和输入数据的基础上最小化损失。然而,不幸的是,局部目标是“缺失”的,因此为了继续优化权重,我们必须首先推断它们。这是期望最大化(EM)算法的经典理由(Dempster等人, 1977; Minka, 1998),该算法包括一个“期望”(E)步骤,推断缺失数据的后验分布,以及一个“最大化”步骤,最大化参数在后验分布上的平均对数似然。PCNs并不推断完整的后验分布,而只是围绕目标的最可能值(平衡时的活动)的狄拉克分布。

为了数学上形式化这一点,假设我们有一个判别性的PCN,输入数据为 D,输出目标为 T,估计的局部目标为 {xl}。我们希望找到局部目标 xl 的最可能值。这可以表达为一个最大后验(MAP)推断问题:

将PC既视为EM算法又视为变分推断的双重解释并不令人意外。正如Neal和Hinton(1998)所展示的那样,任何EM算法都可以表示为对变分自由能泛函F的双重下降。根据EM算法已知的收敛性质,我们可以推导出PCN收敛到变分自由能F的最小值。

3.4 PC对损失函数的临界点的收敛性

从先验角度来说,第3.3节的结果并没有告诉我们F的最小值在多大程度上对应于BP(反向传播)的有用最小值,或者监督损失L的有用最小值。接下来,我们通过重新解释PC,将其从对变分自由能F执行EM(期望最大化)算法,转变为对BP损失L执行约束EM算法,从而证明PCN(预测编码网络)保证收敛到L的最小值。这意味着PC具有与BP相同的收敛特性,因此从理论上讲,PCN具有与BP相同的学习能力。这最终表明,尽管PC学习规则与BP不同,但它可以扩展到大规模深度网络的训练中,并且能够达到与BP相同的性能。

证明过程分为几个步骤。我们首先将推理阶段和学习阶段表示为对\( L \)而非\( F \)的约束最小化。我们利用这一点将PCN的动力学过程表示为在L上的EM算法,然后应用已知的EM算法的收敛结果来证明其收敛到L的临界点。

回顾一下,我们假设了一个满足能量梯度界限的初始化条件:

。我们在附录A.7.3中证明,在这种条件下,监督损失L 在推理过程中是有保证会减少的。这是因为用能量界限条件进行初始化意味着反向传播损失的梯度大于残差能量的负梯度。如果反向传播损失和残差能量的梯度动态是连续的(这在技术上需要连续时间推理或无限小的学习率),那么根据中值定理,为了使梯度“交叉”,即残差能量梯度大于反向传播损失梯度,从而导致损失增加,它们必须首先达到一个相等的点。这个点由边缘条件给出,是推理的平衡状态,因此推理过程在这个条件下终止,从而反向传播损失在推理过程中不会增加。直观上,在这些条件下,推理的动态过程将简单地“沿着斜坡滚下”,继续减少 L,直到达到由边缘条件给出的平衡状态。如果学习率足够小,就永远不会出现监督损失增加的“过度”情况。尽管这个论证在技术上需要无限小的学习率,但在图4B中,我们绘制了一个深度非线性网络在训练过程中推理阶段反向传播损失的变化情况,发现其始终为负,即使步长为0.1,这也表明在实际中这个条件似乎对有限步长是鲁棒的。因此,我们可以以另一种方式解释推理的动力学过程,即在能量梯度界限的约束下对L进行约束最小化:

在假设推理阶段总是收敛到某个解,而该解必须满足边缘条件的前提下,可以清楚地看到这两个优化过程的解是相同的。至关重要的是,这使我们能够将推理阶段重新解释为对L的最小化,而不是对 F的最小化。直观上,我们所做的就是将对F 的无约束最小化(它必须在L 和

之间找到一个平衡)重新解释为在约束条件下对 L进行最小化,该约束条件是它与

隐式进行的权衡不能大于无约束最小化F所允许的平衡条件。下一步是要证明我们也可以用对 L的最小化,而不是对F 的最小化来表示权重更新。幸运的是,这很容易做到。

在图4E中,我们展示了在完整的MNIST数据集上训练时,PCN和BP(反向传播)之间可以获得类似的准确率,这也验证了我们的理论。此外,这种等效的性能和收敛性并不是因为PC和BP梯度相似。在图4D中,我们绘制了一个5层PCN的每一层PCN权重更新与BP更新在训练过程中的余弦相似度,发现它们在各层之间以及在训练过程中始终存在差异。这进一步支持了我们的主要理论主张,即PCN表现出与BP不同的收敛行为,但最终仍然能够最小化反向传播损失函数。

4 讨论

在本文中,我们为理解PCN(预测编码网络)中的推理和学习过程提供了一个新颖的理论框架,并对其进行了数学描述。我们首次明确地对线性网络的推理平衡进行了数学描述,探讨了它们如何随着决定网络前馈和反馈影响相对权重的精度参数而变化,并发现了一个新的联系:PCN与目标传播(TP)之间的关系,使得PCN的推理平衡位于TP解和BP(反向传播)解之间的谱上。尽管我们的数学结果主要适用于线性情况,但我们通过实证研究证明,这些结果所引发的直觉仍然适用于深度非线性网络。

其次,我们为PC(预测编码)提供了一个新颖的数学解释,将其视为一种广义的期望最大化(EM)算法,其中推理阶段可以表示为约束优化问题。这最终使我们能够证明PCN的学习过程能够收敛到与BP相同的最小值,从而表明PCN最终具有与深度BP网络相同的表示能力和学习能力。这一结果对神经科学和机器学习都具有重要意义,因为PCN只需要局部的赫布学习规则,并且能够以所有层并行的方式自主运行。

关于PC与TP的联系以及PC作为缺失数据推断的解释,这两种解释似乎是对“推断局部目标”这一概念的互补性解释。实际上,任何执行全局损失函数信用分配的算法,都必须隐式或显式地计算这些局部目标,而算法的局部性属性和生物学合理性主要取决于推断这些局部目标的方法。长期以来,人们已经知道BP本身也可以用这种方式来表示(LeCun, Touresky, Hinton和Sejnowski,1988)。未来的工作将进一步研究这一问题,并试图理解最优局部目标是什么,与给定局部目标相关的优化属性是什么,以及仅使用网络中的局部信息可以推断出什么样的目标。

在本文中,我们专注于从理论上证明PC收敛到反向传播训练损失的驻点。然而,重要的是要明确这一结果的含义。它仅意味着PCN运行到收敛时会达到反向传播训练损失的最优损失曲面上的一个点。然而,这并不意味着PCN一定会找到与BP相同的最小值,或者它们具有相同的收敛动态。事实上,由于PC方法会导致定量上不同的更新,目前仍不清楚PC方法在训练过程中是否会比BP表现得更好或更差。有一些初步证据(Song等人,2022)表明,PC可能在每次权重更新步骤中比BP学习得更快,因为推理阶段是前瞻性的,它以一种考虑网络中其他潜在权重更新的方式更新局部目标,从而导致权重更新之间的干扰比BP更小。然而,实证结果表明,这种效应似乎只在小批量大小或大学习率的情况下出现,可能是因为小学习率减少了这种干扰的影响,而小批量的平均化也平均化了权重干扰效应。同样,PC找到的最小值是否比BP找到的最小值具有更好的泛化能力,仍需进一步深入研究。尽管如此,我们得出的PC应该收敛到反向传播损失的驻点这一核心结果是重要的,因为它证明了一种局部的、生物学上合理的算法可以达到与BP相当的学习性能。此外,与以往的尝试不同,我们的结果不需要对PCN施加严格且人为的条件。

最后,与BP网络相比,推理阶段仍然是PCN中的一个主要计算瓶颈,目前尚不清楚是否可以显著加快或改进这一过程。这可能通过应用更先进或高效的信令传递推断算法来实现(Dauwels,2007;Heskes等人,2003;Kschischang、Frey和Loeliger,2001;Minka等人,2005;Winn和Bishop,2005),但目前尚不清楚这种算法是否能够扩展到深度网络的推理中,或者在实际中是否足够高效以与BP直接竞争。

编辑:黄继彦

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

来源:数据派THU一点号

相关推荐