摘要:2023年,Hinton站上诺贝尔物理学奖的领奖台。不是因为深度学习赢了图灵奖。而是因为一套算法,模拟大脑做梦,把统计物理和智能系统连在了一起。
2023年,Hinton站上诺贝尔物理学奖的领奖台。不是因为深度学习赢了图灵奖。而是因为一套算法,模拟大脑做梦,把统计物理和智能系统连在了一起。
从Hopfield网络说起。
这是1982年提出的一个模型,用来模拟神经元之间的连接。每个神经元只有两种状态:开或关。所有神经元两两对称连接,每个状态对应一个能量值,网络的运行就是寻找最低能量状态——这被认为就是记忆最稳定的形式。换句话说,这是一台“能量驱动的记忆机”。
但Hinton不满足。1983年,他和学生Sejnowski提出,Hopfield网络不仅能储存记忆,还能“解释输入”。比如你给它一个模糊图像,它能在所有可能状态中找到能量最低的那个,输出你看到的是什么三维物体。
为了解决容易陷入局部最优的问题,Hinton引入了“随机性”——神经元不再是非黑即白,而是根据输入强度决定开关的概率。
这就把网络引入了统计物理的世界。每个状态都有概率,低能量的状态更可能出现,但不会唯一。整个系统最终会在一套状态分布中达到“热平衡”。
#优质好文激励计划#这就是玻尔兹曼分布。Hinton把这一机制搬进神经网络,于是诞生了
玻尔兹曼机(Boltzmann Machine)。这类网络不仅可以识别图像,还能生成图像。它的工作方式像极了人脑做梦:神经元先随机初始化,然后根据连接和输入反复更新,最后稳定下来,生成一个“梦境”。
梦是什么?就是网络根据已学结构,自己脑补出来的图像。
关键在于——权重怎么学?
在“醒着”的时候(wake phase),网络看见真实图像,可见层被“钳住”,隐藏层自由更新,逐步靠近热平衡。这时候,网络形成对图像的解释——哪些隐藏神经元应该被激活,就强化这些连接。
在“做梦”的时候(sleep phase),不给任何输入,让网络自由演化到热平衡。梦到的图像可能是胡思乱想。如果某些神经元对在这种胡想中频繁共同激活,它们之间的连接就会被削弱。
整个权重更新过程就看一件事:
“在真实图像中一起激活了多少次”,减去“在梦境中一起激活了多少次”。
这就是算法的本质。结构简单,机制优雅,理论扎根于热力学。可惜,慢得惊人。当网络变大、权重变强,达到热平衡的过程极其缓慢。玻尔兹曼机成了“浪漫但不实用”的代表。
直到17年后,Hinton重出江湖。他提出一个简化版:受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)。关键限制:隐藏层神经元之间不能互相连接,只保留输入层和隐藏层之间的连接。
这个约束带来巨大好处。唤醒阶段,所有隐藏神经元可以同时并行更新,一步就能近似热平衡。睡眠阶段虽然仍然耗时,但Hinton干脆只采样一步:更新隐藏层→重构输入→再更新隐藏层。
RBM不光能学,而且学得快。更关键的是,它可以堆叠。
你先训练一个RBM,得出隐藏层的激活模式,然后把这些模式当作下一个RBM的输入,再训练……一层一层叠上去,每一层都在提取上一层的“特征的特征”。
这就是深度信念网络(Deep Belief Network)。
当Hinton在2006年提出它的时候,深度学习正被学术界群嘲。共识是:层数一多,训练就会崩。但他用RBM堆出来的网络,第一次实验证明:“可以训练好很深的网络。”
没有反向传播。没有梯度回传。只有一层一层地堆RBM,再加上“醒着学现实、睡着删幻想”的更新机制。这套结构被迅速应用于语音识别、图像识别、推荐系统,甚至赢下Netflix百万美元算法大赛。
它是现代深度学习的真正跳板。不是最终形态,但它完成了那一步关键转折。之后反向传播被优化重生,ResNet、AlexNet、Transformer接踵而来。RBM退出了舞台。
但没有它,就没有今天。Hinton有句很有意思的话:
“RBM就像酶。完成了反应,就不再被需要了。”
来源:老胡说科学