诺奖得主辛顿:Deepseek等开源大模型将给世界带来致命危险

B站影视 日本电影 2025-03-27 10:33 1

摘要:我读过辛顿近年几乎所有的访谈视频,大体上可以分为两类,学术讲座,谈他对AI的技术原理理解、社会访谈,谈他对AI的风险担忧。这次他在马丁讲座的发言,是学术类发言的集大成者,用一个比较长的篇幅讲了他对AI几十年发展的理解。当然,在最后的交流环节当中,他继续呼吁重视

高飞 写在前边:

我读过辛顿近年几乎所有的访谈视频,大体上可以分为两类,学术讲座,谈他对AI的技术原理理解、社会访谈,谈他对AI的风险担忧。这次他在马丁讲座的发言,是学术类发言的集大成者,用一个比较长的篇幅讲了他对AI几十年发展的理解。当然,在最后的交流环节当中,他继续呼吁重视AI风险。

很有意思的一件事是,辛顿教授等人一手将深度学习带到世界,并孕育出了现在的大语言模型,但是他也认为这是一个危险的发明。

这里我给大家梳理一下辛顿的逻辑,非常简单:1、AI一定会比人类聪明,比我们聪明的物种一定不会听我们的,在对自然界都是这样的规律。2、就算AI听我们的,但是AI在行动的时候要制定自己的计划,这个计划未必对我们有利,比如我们说要低碳,AI可以说把人类消灭就可以减碳了。3、说现在的AI没有身体,语言智能不能创造AGI是错误的,因为语言、思维和世界其实某种程度是等价的。

访谈概述:

2025年马丁讲座(Martin Lecture)迎来了2024年诺贝尔物理学奖得主杰佛里·辛顿,他在这场题为"玻尔兹曼机:统计物理学遇上神经网络"的讲座中,深入探讨了自己早期发明的玻尔兹曼机——一种无监督深度学习模型。作为多伦多大学计算机科学荣誉大学教授(University Professor Emeritus),辛顿因其在使用人工神经网络进行机器学习方面的开创性贡献而获得2024年诺贝尔物理学奖。他的工作引领了语音识别、物体分类等多个领域的巨大进步,这些进步极大地影响了我们的日常生活。

讲座在多伦多大学举行(发布在油管Arts & Science - University of Toronto频道),由艺术与科学学院院长Melanie Wooden主持介绍,物理系主任Paul Kushner担任主要介绍人。在讲座后半部分,新任物理系教授Yoni Khan与辛顿进行了炉边谈话,并在最后进行了观众问答环节。

本文将系统性地总结辛顿教授在讲座中分享的关键洞见,包括反向传播算法、神经网络的进展、大型语言模型、玻尔兹曼机的原理以及AI发展的未来挑战等内容。

"在计算机视觉领域,几年前神经网络的论文会被例行公事地拒绝,因为所有人都'知道'这些东西毫无意义。而几年后,几乎所有的论文都是关于神经网络的。""单词就像乐高积木,但有约30,000种不同类型,而且它们不是刚性的,可以有些许变形。每个单词都有一堆'手',随着单词形状的变化,这些'手'的形状也会改变,它们与那些'手'形状匹配的其他单词'握手'。""很明显语言是通过学习获得的。如果你能说服人们语言不是学习得来的,那么你就成功了。几代语言学家都被说服了语言不是通过学习获得的。""像GPT-4这样的模型知道的东西比任何一个人多数千倍。反向传播实际上比我们大脑中的任何东西都更善于将大量信息压缩到连接中。""如果你剥夺人们睡眠,他们会完全疯狂。如果你只剥夺人们一周的睡眠,他们会完全精神错乱,有些人永远无法恢复。大多数睡眠理论无法解释为什么会这样。但如果睡眠是为了遗忘,这确实解释了为什么。""Meta开始发布这些大型基础模型的权重,这完全疯狂。这就像在网上公开销售可裂变材料一样。""心理学研究表明,如果你询问正常、健康的人预测未来五年内灾难性事件的可能性,他们通常会严重低估。如果你询问轻度抑郁的人,他们的预测则更准确。""我们正在制造这些外星智能。目前我们还控制着它们,但我们正在把它们变成能在世界上做事的代理。它们很快就会意识到,实现目标的一个好方法是获得更多控制权。""我们不会能够减缓AI的发展,因为它有太多非常好的用途。问题不是我们能否减缓它的发展,而是我们能否安全地发展它。""人们一直预测AI即将遇到瓶颈。现在有这么多聪明人在研究这个问题,我不相信不会有好的新想法让它运作得更好。就像摩尔定律一样,我们会找到新方向继续前进。"
一、AI研究的两条路径:逻辑与神经网络

1950年代以来,人工智能研究主要遵循两种截然不同的方法。辛顿教授指出:"在AI的历史中,存在两种截然不同的方法——源自逻辑的方法和神经网络方法。"第一种是以逻辑为灵感的方法,认为智能的本质是推理,需要通过研究推理工作原理来理解智能,并通过操作符号表达式来实现推理。第二种是神经网络方法,认为智能的本质是学习神经网络中的连接强度,主张应先弄清大脑如何学习,而不必过早关注推理过程。

有趣的是,图灵(Turing)和冯·诺依曼(von Neumann)这两位计算机科学先驱都相信第二种方法,但他们的英年早逝导致第一种方法在随后的50年里占据了主导地位。辛顿教授自己一直致力于神经网络方法的研究,最终证明了这种方法的强大潜力。

在讲座中,辛顿介绍了神经网络的基本概念——它们由多层简化的神经元组成,这些神经元之间通过可调整强度的连接相互作用。尽管真实的神经元极为复杂,但研究人员对其进行了大幅简化,正如辛顿幽默地说道:"物理学家喜欢把马简化成球体。"通过训练这些连接的强度,神经网络可以学习将输入(如图像像素)转换为期望的输出(如图像类别标签)。

二、反向传播:现代深度学习的基础

在讲座的前半部分,辛顿详细介绍了反向传播算法——一个虽看似简单但极为有效的学习方法。这种方法本质上是微积分中链式法则的应用,用于调整神经网络中的连接权重。辛顿解释道:"反向传播基本上是做同样的事情,但它可以并行地为所有权重计算出稍微增加或减少它们是否会提高性能。"

传统的神经网络训练可能采用逐一尝试的方法:随机选取一个连接强度,略微改变它,然后看整个系统是变好还是变差。但这种方法在现代神经网络(包含上万亿个权重)中显然不可行。反向传播则通过信号正向传递后,计算输出与期望值的差异,然后将这种差异信号反向传播,从而同时确定所有连接应该如何调整,极大提高了训练效率。

辛顿回顾了2012年的重要突破,当时他实验室的两名学生Ilya Sutskever和Alex Krizhevsky使用深度神经网络在图像识别上取得了比传统计算机视觉方法低得多的错误率。"这打开了神经网络的闸门,"辛顿说,"在这之前,神经网络的论文通常会被计算机视觉会议拒绝,因为所有人都认为这些东西毫无意义。但几年后,几乎所有的论文都是关于神经网络的。"

三、大型语言模型与语言学习的革命

辛顿特别谈到了语言学习和大型语言模型的发展。许多符号AI的支持者曾宣称神经网络永远无法用于语言处理,声称语言处理与图像识别有本质区别。辛顿甚至开玩笑说,现在可以让GPT-4向这些人解释他们的言论错在哪里。

他特别提到了语言学家乔姆斯基(Chomsky),后者曾说服许多人相信语言不是学习得来的。"语言显然是通过学习获得的,"辛顿反驳道,"如果你能说服人们语言不是通过学习获得的,那么你就成功了。几代语言学家都被说服了语言不是通过学习获得的。"乔姆斯基的理论主要关注语法而非语义,而如今的大型语言模型恰恰证明了通过数据学习语法和语义是可行的。

辛顿还讨论了单词意义的两种不同理论。一种理论认为单词的意义取决于它与其他单词的关系,这需要某种关系图来捕捉;另一种理论来自心理学家,认为单词的意义是一大堆特征。1985年,为了证明反向传播确实有效,辛顿开发了一个小型语言模型,统一了这两种理论。他的模型使用单词的特征来预测句子序列中下一个单词的特征,再从这些特征预测下一个单词。

"现在的大型语言模型工作方式与这个小型语言模型相同,只是规模更大,特征交互方式更复杂,"辛顿解释道。这种方法对于理解意义至关重要:它将单词转换为特征向量,通过多层交互消除歧义,最终预测下一个单词的特征和单词本身。

四、意义的本质:语言模型如何理解世界

辛顿提出了一个生动的类比来解释语言和意义的工作方式。他说:"想象单词就像乐高积木,但有一些不同。首先,我们有大约30,000种不同类型的乐高积木。其次,它们不是刚性的,可以有些许变形。"

在这个类比中,单词定义了一个粗略的形状,但这个形状有一定的灵活性,甚至可能定义几种不同的形状。单词之间的交互决定了各个单词的具体形状。与乐高积木通过凸起和凹槽连接不同,单词有许多"手",随着单词形状的变化,这些"手"的形状也会改变。单词与那些"手"形状匹配其"手"形状的其他单词"握手"。

"理解一个句子的意义就像你有这些有某种灵活形状的单词,随着它们形状的变化,它们用来握手的手也会改变形状。你需要做的是找出如何变形它们,使它们能够很好地锁在一起。当你做到这一点时,当你变形这些形状并让它们很好地锁在一起时,那就是意义。这是一种建模事物的方式,这就是意义。"

辛顿补充说,唯一的其他区别是这些单词是千维的,而不是三维的,但这只是规模的问题,概念上的理解方式是相同的。这种将单词视为具有灵活特征集的对象的方法,与它们在上下文中通过交互来精确确定其含义的观点,是现代大型语言模型背后的基本思想。

五、大脑学习与反向传播的差异

尽管反向传播在深度学习中非常成功,但辛顿指出这种方法很难在大脑中实现。"如果你问反向传播作为大脑学习模型怎么样?没有人找到一种好方法在神经上可行的东西中实现反向传播。"

他指出了几个关键差异:皮层神经元之间发送的是二进制信号,而不是反向传播中使用的实值;反向传播需要知道输入对应的正确输出才能发送误差信号;反向传播会干扰实时感知流程;最重要的是,反向传播的效果实际上比大脑要好,在将大量信息压缩到少量连接中方面尤其出色。

辛顿解释说:"这些大型语言模型有大约一万亿个连接,而你的大脑有大约100万亿个连接。我们假设其中10万亿个用于知识,这似乎不是不合理的。像GPT-4这样的模型知道的东西比任何一个人多数千倍。所以反向传播实际上比我们大脑中的任何东西都更善于将大量信息压缩到连接中。"

这种差异可能是因为大脑在解决一个完全不同的问题。神经网络有很多连接但生存时间短,而AI模型有大量数据但连接相对较少。反向传播适合有大量数据但连接较少的情况,而大脑可能已经优化为有大量连接但数据较少的情况。

六、玻尔兹曼机:统计物理学与神经网络的结合

讲座的第二部分,辛顿转向了他的另一项开创性工作——玻尔兹曼机,这是一种利用统计物理学原理的神经网络模型。"这种学习程序非常有趣,使用统计物理学,但实际上效果不是很好,"辛顿坦言。

玻尔兹曼机源于John Hopfield的工作,使用二进制神经元(激活或不激活)和对称权重。辛顿解释道:"在Hopfield网络中,全局网络状态(即所有神经元的开或关状态)被称为配置,这些配置有能量。"配置的能量(或好度,如果我们想去掉负号)简单地说就是对所有活跃神经元对之间连接权重的总和。

辛顿和Terry Sejnowski意识到Hopfield网络不仅可以用作存储记忆,还可以用于感知推理——即查看图像并解释其中的内容。他们的方法涉及两组神经元:可见神经元(表示图像中的内容)和隐藏神经元(表示图像解释)。整个系统的能量代表解释的"坏度",因此找到低能量状态意味着找到好的解释。

这种方法特别适用于有多种可能解释的歧义情况,如Necker立方体的不同视角。辛顿解释道:"这是一个系统的好例子,对同一个图像有两种不同的解释。用同一个系统的两个不同能量最小值来模拟这一点似乎很好。"

七、热平衡与随机神经元的魔力

在玻尔兹曼机中,辛顿介绍了一个关键创新:使用噪声神经元进行搜索。传统的Hopfield网络可能会被困在局部能量最小值中,但如果使用概率性决策规则的噪声神经元,系统可以跳到更高的能量状态,并最终找到全局最小值。

"如果你使用噪声神经元进行搜索,就会发生一种魔法,你会得到一个非常简单的学习过程,"辛顿解释道。这个过程涉及到热平衡的概念,这是统计物理学中的一个关键概念。

热平衡不是指系统稳定在某个特定状态,而是指系统的统计分布达到稳定。辛顿用一个生动的类比解释道:"想象有很多完全相同的神经网络,都有相同的输入。我们让它们都从同一个状态开始,但然后每个神经网络都做出自己的随机决定,关于如何打开或关闭隐藏单元。"

随着时间的推移,这些系统会分散到不同的配置中,低能量配置会有更多系统,高能量配置会有较少系统。尽管单个系统仍会在配置之间跳跃,但整体分布会保持稳定——这就是热平衡。关键是,在热平衡状态下,系统处于特定配置的概率仅取决于该配置相对于所有其他配置的能量,而与系统的历史无关。

八、唤醒与睡眠:玻尔兹曼机的学习算法

辛顿介绍了玻尔兹曼机使用的创新学习算法,该算法受到统计物理学原理的启发,包括"唤醒"和"睡眠"两个阶段。

在唤醒阶段,系统接收输入数据,调整隐藏单元直到达到热平衡,然后应用Hebb规则:"对于每对同时激活的连接单元,稍微增加连接强度。这正是Donald Hebb提出的规则,"辛顿解释道。

在睡眠阶段,系统不接收输入,而是自行生成数据。当两个单元同时激活时,连接强度会减弱——这是一种反Hebb学习规则。这两个简单的规则惊人地有效,在期望值上做到了完全正确的事情。

辛顿将这种方法与弗朗西斯·克里克(Francis Crick)关于睡眠功能的假说联系起来:"克里克推测,当你做梦时,发生的事情是你让你的神经网络生成东西。他还推测,你让它生成东西是为了摆脱那些东西。"这与玻尔兹曼机的睡眠阶段非常吻合,后者通过"忘记"生成的模式来改进学习。

从数学角度看,这种学习算法实际上是在最大化模型生成类似训练数据的可能性。梯度(即权重应该如何改变以改进系统的方向)可以简单地表示为两种状态下相关性的差异:数据被钳制在可见单元时的相关性,以及系统自由运行时的相关性。

九、受限玻尔兹曼机与深度学习的催化

尽管理论优雅,玻尔兹曼机在实践中面临严重挑战,主要是因为大型系统达到热平衡需要很长时间。"这就是为什么在17年里,玻尔兹曼机基本上被搁置了,"辛顿说。

为了解决这个问题,辛顿在2002年开发了受限玻尔兹曼机(RBM),这是一种简化版本,只有一层隐藏单元,且隐藏单元之间没有连接。这种设计使得在钳制可见单元时,系统可以在一步内达到热平衡,大大提高了效率。

更令人惊讶的是,辛顿发现即使在睡眠阶段不运行系统很长时间也能取得良好效果。最终,他开发了一种称为对比散度(contrastive divergence)的算法,只需向上、向下、再向上更新单元就能有效学习。这种方法虽然从数学上很难证明其正确性,但在实践中效果很好。

这些受限玻尔兹曼机实际上找到了实际应用。辛顿提到:"它们实际上被Netflix用来预测你会喜欢哪些电影。有一个比赛,如果你能比Netflix自己更好地预测人们会喜欢哪些电影10%,他们就提供一百万美元。获胜的团队使用了我们的受限玻尔兹曼机和另一种称为矩阵分解的方法,将它们结合起来,赢得了比赛。"

更重要的是,研究人员发现可以将多个RBM堆叠起来,形成深度神经网络。这种方法成为初始化反向传播网络的一种有效方式,在2010年代初为深度学习的发展做出了重要贡献。"把它们想象成一种酶。大约四、五年内,人们用这种方式初始化神经网络,使它们工作得更好,显著更好,特别是在语音识别方面,"辛顿解释道。

十、AI安全与未来挑战

在与Yoni Khan的炉边谈话和观众问答环节中,辛顿表达了对AI安全的担忧。当被问及是否需要类似CERN的国际AI合作组织时,辛顿表示支持这一理念,但指出了政治现实的挑战:"现在人们正在组织一个请愿书,说我们应该为AI建立一个CERN。我正在决定是否要签署它。主要问题是AI将用于致命自主武器。"

他解释说,所有出售武器的国家,如美国、俄罗斯、以色列和英国等,都会想要开发自己的致命自动化武器,并且不会愿意合作。此外,AI还可用于加密攻击和网络攻击,这使得国际合作变得更加困难。

关于AI模型发布的问题,辛顿批评了公开发布大型基础模型权重的做法:"Meta开始了这个趋势,但现在他们发布这些大型基础模型的权重。重点是,使用AI的主要限制是,训练一个大型基础模型需要大量的金钱和数据。一旦你有了模型的权重,你就可以用这个模型做各种其他事情,而只需要很少的训练。"

他将这种做法比作公开提供可裂变材料,认为这非常危险,因为现在任何能够获得几十万美元的网络犯罪分子都可以重新训练这些模型。对于未来AI发展的前景,辛顿表示相对悲观,认为人们通常低估了灾难性事件的概率。他强调:"我们不会能够减缓它的发展,因为它有太多非常好的用途。我的意思是,差不多所有行业都能利用AI。它在医疗保健、教育和设计新材料方面将非常有用。"

问题不是我们能否减缓AI发展,而是能否安全地发展它。辛顿担忧地指出:"这些东西确实理解它们在说什么。我们正在制造这些外星智能。目前我们还控制着它们,但我们正在把它们变成能在世界上做事的代理。它们很快就会意识到,实现目标的一个好方法是获得更多控制权。"

十一、结论

杰佛里·辛顿的Martin讲座提供了对人工智能发展历史和未来的深刻洞察,特别是从物理学与神经网络交叉的角度。他的工作跨越了反向传播算法和玻尔兹曼机,前者成为现代深度学习的基础,后者虽然在工程上不太实用,但提供了关于学习过程的宝贵理论见解,并作为"酶"促进了深度学习的发展。

辛顿的讲座揭示了AI研究中的一个重要模式:有时,看似纯理论的创新可能需要数十年才能找到实际应用,而有时直接的工程方法可能会产生立竿见影的结果。反向传播是一个简单但强大的工程解决方案,而玻尔兹曼机则代表了一种更为深刻但实现更具挑战性的理论见解。两者都对人工智能的进步做出了重要贡献。

展望未来,辛顿既看到了AI巨大的积极潜力——在医疗、教育和气候变化等领域——也对其安全风险表示担忧。他认为国际合作和监管至关重要,但在当前地缘政治环境中实现这一点面临严峻挑战。随着AI系统越来越强大,确保它们与人类价值观保持一致,同时防止恶意使用变得越来越重要。

正如辛顿所示,物理学与神经科学的交叉继续为AI提供新的见解和方法。随着这些领域的进一步融合,我们可能会看到更多创新的学习算法和模型架构的出现,这些创新将继续推动人工智能的发展,并帮助解决其面临的挑战。

来源:人工智能学家

相关推荐