摘要:施米德胡伯:上世纪末的 1999 年,《自然》杂志评选出了那个世纪最具影响力的发明。瓦茨拉夫·斯米尔认为,最伟大的发明当属一项让 20 世纪在所有世纪中脱颖而出的技术,因为它引爆了人口爆炸——全球人口从 1900 年的 16 亿激增至如今的近 100 亿。这背
采访者: 欢迎再次做客访谈!非常荣幸能邀请到您!
施米德胡伯: 我也很荣幸,谢谢你们的邀请。
采访者: 好的,在探讨新世纪的伟大技术进步之前,您能否先谈谈上个世纪最具影响力的发明呢?
施米德胡伯: 上世纪末的 1999 年,《自然》杂志评选出了那个世纪最具影响力的发明。瓦茨拉夫·斯米尔认为,最伟大的发明当属一项让 20 世纪在所有世纪中脱颖而出的技术,因为它引爆了人口爆炸——全球人口从 1900 年的 16 亿激增至如今的近 100 亿。这背后,有一项至关重要的发明在推动着这一切。如果没有这项发明,现在世界上将有一半的人口不复存在,因为它正是这场人口爆炸的驱动力。我们现在还不能断言人口爆炸究竟是好事还是坏事,但这项发明无疑是上个世纪影响最为深远的事件。空气中 80% 的成分是氮,植物生长离不开氮,但它们无法直接从空气中吸收。在当时,也就是 1908 年前后,人们已经认识到氮元素的重要性,但却苦于无法从空气中提取氮,进而制造人工肥料。直到哈伯法(哈伯法:也称为哈伯-博世法,是一种通过氮气和氢气在高温高压和催化剂的条件下合成氨的方法),也被称为哈伯-博世法(哈伯-博世法:同哈伯法)的出现,该方法通过高温高压技术从空气中提取氮,从而实现了人工肥料的制造。
采访者: 那么,您认为 21 世纪最重要的事情会是什么?
施米德胡伯: 21 世纪的主题将更为宏大。真正的人工智能将会彻底颠覆人类文明,它们将学会做任何人类能做的事情,甚至远超人类。我们将见证一场人工智能的爆发式发展,与之相比,人类自身的人口爆炸将显得微不足道。
采访者: 您认为人工智能的智能爆发是可能发生的吗?或者说这是人们所期望的吗?您不认为人类的意义构建和能动性也是我们存在目的的一部分吗?
施米德胡伯: 我同意意义构建是我们存在目的的一部分。但是,所有这些都只是一个更宏大进程中的一小部分,这个进程就是宇宙从最初的简单状态,演化到如今难以想象的复杂程度。而这一演化进程孕育出了我们人类的意义构建过程,并且该过程目前正在为某种超越其本身的事物奠定基础。
采访者: 像 ChatGPT 这样的现代大型语言模型(大型语言模型:经过大量文本数据训练的深度学习模型,能够理解和生成自然语言),都是基于自注意力 Transformer(Transformer:一种主要用于自然语言处理的深度学习架构,其核心机制是自注意力机制) 架构的。尽管存在明显的局限性,但它们仍然是一项革命性的技术。您应该对此感到非常高兴,因为早在约三十年前,您就发表了第一个 Transformer 变体。您现在对此有何感想?
施米德胡伯: 事实上,早在 1991 年,当时计算机的运算成本可能比现在要贵 500 万倍,我就发表了你刚才提到的那个模型,现在被称为“非归一化线性 Transformer”。我当时给它起了个不同的名字,叫做“快速权重控制器”。但名字并不重要,关键在于其背后的数学原理。这个线性 Transformer 本质上是一个神经网络(神经网络:一种模拟人脑神经元连接方式的计算模型),内部包含了大量的非线性运算。所以,把它称作“线性” Transformer 有点奇怪。但是,这里的“线性”非常重要,它指的是模型的规模可扩展性。对于 2017 年提出的标准 Transformer(也称为二次 Transformer),如果输入规模扩大 100 倍,那么所需的计算量就会增加 10,000 倍。而对于 1991 年提出的线性 Transformer 而言,输入规模扩大 100 倍,所需的计算量仅增加 100 倍。这就使得线性 Transformer 非常有意思,因为现在许多研究人员都在致力于开发更高效的 Transformer 模型。因此,这个诞生于 1991 年的线性 Transformer 就成了一个非常好的起点,可以用来进一步改进 Transformer 以及其他类似模型。
采访者: 那么,线性 Transformer 究竟是如何工作的呢?
施米德胡伯: 假设我们的目标是根据当前的聊天内容,预测下一个词是什么。1991 年提出的线性 Transformer 本质上是这样做的:为了尽可能地减少预测错误,它会学习生成一些模式,在现代 Transformer 术语里,这些模式被称为“键”(keys)和“值”(values)。我当时把它们叫做“from”和“to”,不过这只是叫法不同而已。然后,它会利用这些模式对自己进行部分重编程,从而使其注意力能够根据上下文,集中到真正重要的内容上。理解线性 Transformer 的一个比较好的方式是:传统的人工神经网络将存储和控制混在一起,而 1991 年提出的线性 Transformer 则采用了一种新颖的神经网络系统,它将存储和控制分离开来,就像传统计算机那样。在传统计算机中,存储和控制在数十年前就已经是分离的了,而控制器则会学习如何操纵存储器。类似地,对于线性 Transformer,我们也有一个“慢速”网络,它通过梯度下降算法(梯度下降算法:一种常用的优化算法,用于寻找函数的最小值)学习如何更新一个“快速”权重网络中的权重。不过,它会学习创建向量化的键模式和值模式,然后利用这些键和值的外积来快速更新“快速”网络中的权重。接下来,这个“快速”网络会被应用到输入的向量化查询上。这样一来,在“快速”网络中,那些在键和值中同时被高度激活的部分,它们之间的连接就会得到加强,而其他部分的连接则会减弱。这套快速权重更新的规则是完全可微的(可微:在数学上,表示一个函数在其定义域内的每个点都可以计算导数),也就是说,我们可以在整个过程中进行反向传播(反向传播:一种用于训练神经网络的算法,通过计算误差的梯度并将其反向传播回网络来更新权重)。因此,我们可以把它作为一个更大的学习系统的一部分,让这个更大的系统学习如何将误差反向传播到整个网络中,进而在特定上下文中学习如何生成合适的键和值,从而不断减少整个系统的预测误差,让它成为一个越来越好的“下一个词”预测器。现在,人们有时也把它叫做“快速权重矩阵存储器”。而现在的二次 Transformer,它们在原理上采用的是完全相同的方法。
采访者: 您提到了您成果颇丰的 1991 年,那一年诞生了许多令人惊叹的成果,而且都是在慕尼黑工业大学。比如 ChatGPT,您发明了其中的“T”——Transformer,还有“P”——预训练网络(预训练网络:指在一个大型数据集上预先训练好的深度学习模型,可以作为其他任务的起点),以及第一个对抗网络(对抗网络:通常指生成对抗网络(GAN),由两个神经网络组成,一个生成器和一个判别器,两者相互博弈,最终生成逼真的数据)——GAN(GAN:生成对抗网络的缩写,参见对抗网络注释)。您能详细介绍一下吗?
施米德胡伯: 是的。1991 年提出的 Transformer 是一个线性 Transformer,所以它和现在的二次 Transformer 并不完全一样。
采访者: 好的,好的。
施米德胡伯: 但不管怎么说,它还是运用了 Transformer 的基本原理。还有 GPT 中的“P”,指的是预训练。在那个年代,深度学习还不太行得通。但我们当时已经有了能够利用预测编码(预测编码:一种数据压缩技术,通过预测数据的下一个值并仅存储预测值与实际值之间的差异来减少数据冗余)技术对长序列进行高效压缩的网络,这使得我们可以在这个压缩后的数据描述空间上进行后续处理,从而让深度学习成为可能,而这在之前是做不到的。然后就是生成对抗网络(生成对抗网络:参见对抗网络注释),也是在 1990 年到 1991 年期间。它的工作原理是什么呢?在当时,我们设计了两个网络。第一个是控制器,其内部包含了一些概率随机单元,这些单元可以学习高斯分布(高斯分布:也称为正态分布,是一种常见的连续概率分布)的均值和方差,当然还有其他的一些非线性单元。然后,这个控制器就构成了一个生成网络,它可以生成一些输出,更准确地说,是这些输出模式的概率分布。第二个网络是预测器,它会观察第一个网络产生的输出,并学习预测这些输出在环境中产生的影响。为了成为一个更精准的预测器,它会不断地最小化自身的预测误差。与此同时,控制器会尝试生成一些让第二个网络感到“惊讶”的输出。也就是说,第一个网络会想方设法地“愚弄”第二个网络,它会试图最大化第二个网络正在试图最小化的目标函数。现在,这种方法被称为“生成对抗网络”。我当时并没有把它叫做“生成对抗网络”,而是称之为“人工好奇心”,因为同样的原理也可以用来让机器人探索周围的环境。此时,控制器生成的是一系列控制机器人行为的动作,而预测器则尝试预测接下来会发生什么,并努力最小化自身的预测误差。与此同时,控制器会尝试设计一些巧妙的实验,从而产生一些让预测器(或者按现在的说法,叫判别器(判别器:在生成对抗网络中,负责区分真实数据和生成数据的神经网络))能够学习到新东西的数据。
采访者: 那么,您是什么时候意识到现代计算机已经强大到足以运行您很久以前发明的这些技术的呢?
施米德胡伯: 到了 2009 年,计算机的运算能力已经相当强大,这使得我们的 LSTM 网络(LSTM:长短期记忆网络,一种特殊的循环神经网络,能够学习长期依赖关系),在我之前的学生亚历克斯·格雷夫斯的努力下,开始在一些竞赛中崭露头角,主要是在手写识别等领域。紧接着在 2010 年,我的团队,以及我的博士后、来自罗马尼亚的丹·西雷桑,他们用另一种方法刷新了 MNIST 手写数字识别(MNIST:一个常用的手写数字数据集,常用于机器学习算法的测试和基准比较)的基准测试结果,他们使用的是在英伟达 GPU(GPU:图形处理器,最初用于图形渲染,现在广泛应用于并行计算,特别是在深度学习领域)上运行的标准、传统的神经网络。因此,在 2010 年,我们第一次拥有了真正意义上的深度有监督网络,并且在当时这个著名的基准测试上超越了所有其他方法。要知道,那时的计算成本可能比现在还要贵 1000 倍。到了 2011 年,我们推出了 DanNet(以丹·西雷桑的名字命名)。DanNet 当时在计算机视觉竞赛中可谓是“独孤求败”,它采用的是基于 GPU 的卷积神经网络(卷积神经网络:一种深度学习模型,特别擅长处理图像数据,其核心是卷积层,用于提取图像特征)。同样是在 2011 年,DanNet 首次取得了超越人类水平的结果。所以,一切都始于 2011 年。在那之后,DanNet 连续赢得了四场计算机视觉竞赛的冠军。从那时起,一切都变得清晰起来:我们找到了一种全新的方式来运用这些诞生于上个世纪的神经网络,从而真正地变革计算机科学。
采访者: 是的,我对“硬件彩票”这个概念很感兴趣。莎拉·胡克写过一篇同名论文,我记得是在 2000 年,当时她还在 Google Brain,现在她去了 Cohere。她在那篇论文中提到,当前人工智能之所以能够取得如此大的进展,唯一的原因就是我们之前为电子游戏开发了大量的 GPU。而深度学习的蓬勃发展,完全得益于这场“意外之喜”。对此,您怎么看?
施米德胡伯: 她说的有一定道理。在第一人称射击游戏中,当你移动视角时,屏幕上的画面需要进行大量的矩阵乘法运算才能实时渲染出来。这就是为什么电子游戏行业几乎是第一个从 GPU 的大规模并行矩阵乘法中受益的行业。然而,到了 2010 年前后,我们意识到这些矩阵乘法运算同样可以极大地加速那些传统的深度学习方法,并且足以让它们超越其他所有方法。
采访者: 是的,这非常有意思。因为英伟达现在,我记得是上周,已经成为全球市值最高的公司,其市值比 2010 年增长了数百倍。您对此有何看法?
施米德胡伯: 确实如此。英伟达的 CEO 黄仁勋,他很早就意识到深度学习可以让他的公司一飞冲天。他也确实做到了。
采访者: 有意思。所以,如果我理解正确的话,您的核心观点是,我们之前所需要做的只是等待计算能力的发展。如今,身处 21 世纪的我们,时机已然成熟。
施米德胡伯: 是的。我们今天正在经历的许多事情,都是基于上个世纪的成果。但这些成果需要足够的规模才能发挥效力。无论是硬件还是软件,相关的算法,都是在那个年代被发明出来的。但是,制造越来越快的并行 GPU 的工业制造技术在当时还不够成熟。所以,我们现在真的是大大受益于硬件的飞速发展。这就是为什么人工智能没有在上个世纪取得突破,而是不得不等到本世纪才迎来爆发。举个例子,第一个卷积神经网络,也就是 CNN,我们在 2011 年的 DanNet 中使用的那种,其实早在日本就已经被提出来了。1979 年,福岛邦彦就提出了深度 CNN 的基本架构,包括卷积层(卷积层:卷积神经网络中的一种核心层,通过卷积核对输入数据进行卷积操作,从而提取特征)、下采样层(下采样层:也称为池化层,在卷积神经网络中用于降低特征图的维度,减少计算量,并增强模型的鲁棒性)。不过他当时还没有使用反向传播算法来训练网络。到了 1987 年,亚历克斯·韦贝尔,另一位在日本工作的德国人,首次将卷积操作与反向传播算法结合起来,而反向传播算法是由芬兰人塞波·林奈玛在 1970 年于赫尔辛基提出并发表的。紧接着在 1988 年,张也发表了现在被广泛使用的二维 CNN 架构,并将其与反向传播算法相结合。所以,从 1979 年到 1988 年,CNN 架构逐渐在日本成型,这本身就很有意思,因为当时的日本也被誉为“未来之地”,他们拥有全球半数以上的机器人。而且,当时全球市值最高的七家公司,除了沙特阿美之外,都来自日本,而不是像现在这样主要来自美国。那时东京核心区域的土地价值就相当于整个加利福尼亚州。短短几十年,变化真是天翻地覆。
采访者: 确实如此。
施米德胡伯: 一切都变了。
采访者: 好的,关于您团队开发的这种人工智能技术,您能分享一些您最喜欢的应用案例吗?
施米德胡伯: 我记得 15 年前我去中国的时候,我还得做出租车司机看一张我想去的酒店的照片。而今天,他对着智能手机说普通话,我这边能听到翻译过来的内容,然后我再说点什么,智能手机又会把它翻译成普通话。我们就像老朋友一样交流。这位出租车司机可能并不知道,他所使用的这项技术,其实源于我在上世纪 90 年代和本世纪初在慕尼黑和瑞士的实验室。但是,我很高兴地看到,我们的人工智能技术切实地打破了沟通的障碍,不仅是人与人之间的障碍,更是国家与国家之间的障碍。这真的很酷。
采访者: 是的,我完全同意。不知道您是否了解,尤尔根,我参与创办了一家名为 X-ray 的初创公司,它做的就是您刚才提到的这种类似“巴别鱼”的翻译功能,利用语音识别(语音识别:将人类的语音信号转换为文本的技术)和语音合成(语音合成:将文本转换为人类语音的技术)技术,可以实现您刚才描述的那种实时翻译体验。这真的很有趣。我上周五和 Speechmatics 的首席技术官威尔共进了午餐,他向我详细介绍了他们语音识别算法背后的奥秘。这些内容我最好还是保密。但我相信,如果您知道了,一定会非常高兴。好的,我们稍微岔开一下话题,您还能想到其他一些应用案例吗?
施米德胡伯: 我尤其感到高兴的是,我们的人工智能技术在医学、药物设计以及可持续发展等领域拥有数千种应用,它正在让人们活得更长久、更健康、更轻松。早在 2012 年 9 月,我的团队和丹·西雷桑一起,首次利用人工神经网络赢得了医学影像竞赛的冠军,那次竞赛的主题是乳腺癌的病灶检测。如果你现在去 Google Scholar 上搜索任意医学主题加上 LSTM,你会发现数千篇论文的标题中都带有 LSTM,不仅仅是在正文中提到,而是在标题中。这些论文涵盖了各种各样的主题,比如学习心电图分析(心电图分析:对心电图波形进行分析,以诊断心脏疾病)、心律失常诊断、心血管疾病风险预测、医学影像的四维分割、自动睡眠分期、新冠病毒检测、新冠病毒预防等等,数不胜数。所以,我非常高兴地看到,这些技术在医学领域产生了如此深远的影响。
采访者: 有人认为像 ChatGPT 这样的技术正在通往通用人工智能(通用人工智能:具备与人类相当或超越人类智能水平的人工智能,可以执行各种不同的任务)(AGI)的道路上,也有人认为这就像建造一座更高的塔来试图接近月球一样徒劳。您对此怎么看?
施米德胡伯: 大型语言模型当然还远不是 AGI。像 ChatGPT 这样的大型语言模型(LLM)只是一种巧妙的方法,用来索引全球范围内已有的、由人类生成的知识,并且可以用人类熟悉的方式(也就是自然语言)轻松地进行检索。这对于许多桌面工作来说已经足够了,例如以特定的风格对现有文档进行总结,或者为文章生成插图等等。然而,真正的 AGI 要比这强大得多。例如,想要取代像水管工或电工这样的工匠就要困难得多,因为现实的物理世界远比屏幕背后的虚拟世界更具挑战性。目前,人工智能主要还是应用在屏幕之后,主要还是服务于桌面工作者,而对于那些在真实物理世界中工作的人来说,人工智能还无法真正发挥作用。要知道,早在 25 年前,最顶尖的国际象棋棋手就已经不是人类了。对于现在的人工智能来说,学习下国际象棋或其他棋类游戏,甚至电子游戏,都相当容易。但是,像足球这样的真实世界的运动项目,对人工智能来说就困难得多。目前,还没有任何一个能够踢足球的、人工智能驱动的实体机器人,可以和一个七岁的男孩相媲美。这就是为什么早在 10 年前,也就是 2014 年,我们就成立了一家专注于物理世界的人工智能公司,名叫 Nnaisense。不过,和我们的其他一些项目类似,这家公司可能也有些生不逢时,因为现实世界真的太复杂、太有挑战性了。
采访者: 您说过这与意识有关,对吗?
施米德胡伯: 的确如此。我在 1991 年开发的第一个深度学习系统,在一定程度上模拟了意识的运作方式,具体来说是这样的:它利用无监督学习(无监督学习:一种机器学习方法,不需要标注数据,模型可以自动从数据中发现模式和结构)以及预测编码技术来压缩输入的观察序列。这个系统里有一个所谓的“意识组块器”神经网络,这个组块器会重点关注那些让下层的“自动化器”(也就是“潜意识自动化器”神经网络)感到“意外”的事件。组块器神经网络的主要任务就是学习理解这些“意外”事件,也就是那些自动化器无法预测的事件,它会尝试在更高的层面上对这些事件进行预测,前提是它能够找到某种更高层次的规律。然后,自动化器神经网络会利用一种同样发表于 1991 年的神经网络蒸馏(神经网络蒸馏:一种模型压缩技术,将一个大型、复杂的神经网络(教师网络)的知识转移到一个较小的神经网络(学生网络)中)技术,来压缩并吸收之前由组块器网络处理的、带有意识层面的认知和行为。也就是说,当组块器还在努力寻找解决方案时,说明还有一些它无法处理的“意外”情况。一旦它找到了解决方案,就会将这些“意外”事件的解决方案提炼并压缩到自动化器中。之所以叫做“自动化器”,是因为这些信息一旦被它掌握,就不再属于意识层面了,因为一切都在按照预期进行。当我们审视之前讨论过的与环境交互的控制器的预测世界模型时,我们会发现它也能够通过预测编码技术,高效地编码不断积累的动作和观察的历史信息。这个模型会自动构建出一套特征层次体系:底层的神经元负责检测一些简单的特征,可能类似于哺乳动物大脑中的那些特征检测器;而高层的神经元则通常负责提取更抽象的特征,但在必要时也会保留足够的细节。因此,这个预测世界模型也会学习识别出不同内部数据结构之间共有的规律性,并在神经元群体中生成某种“原型编码”,换句话说,就是一种紧凑的表示形式,或者叫符号。这个模型会为那些频繁出现的观察序列创建这样的符号,从而减少整个序列所需的存储空间。特别值得注意的是,在这个系统中,紧凑的“自我表征”或者说“自我符号”只是数据压缩过程的一个很自然的副产品。因为当智能体与周围环境交互时,有一个对象始终贯穿于它的所有动作和感知输入之中,那就是智能体“自身”。为了高效地编码迄今为止的所有动作和观察的历史,模型就需要构建出一个内部的、相互连接的神经元子网络,用来计算能够表征智能体自身的神经激活模式。这样,它就拥有了一个“自我符号”。每当智能体使用规划器(也就是它的世界模型)来思考未来,考虑采取哪些行动序列可以最大化奖励时,每当这个规划过程激活了“自我符号”,或者说激活了那些代表智能体自身的神经元时,智能体就是在思考自身,思考自身可能的未来。从本质上讲,它正在进行现在所谓的“反事实推理”(反事实推理:一种推理方式,考虑与事实相反的情况,并推断如果事实不同,可能会发生什么),通过规划来寻找优化奖励的途径。而“自我意识”只是智能体在与环境交互并构建世界模型的过程中,数据压缩过程的一个很自然的副产品。
采访者: 是的。
施米德胡伯: 鉴于我们早在三十多年前就已经拥有了这样的系统,所以我一直主张,我们其实在三十多年前就已经拥有了具备自我意识和意识的系统。
采访者: 关于这一点,我有几个想法。“意识”这个词会引发许多不同的思考。例如,大卫·查尔默斯提出了“难题”的概念,探讨的是关于体验的“质”的“是什么”和“如何产生”的问题。您刚才从“自我建模”的角度阐述了“意识”,这与马克斯·本内特在他最近的《智能简史》中的观点非常相似。此外,马克·索尔姆斯认为“意识”是一种情感系统,而迈克尔·格拉齐亚诺则认为“意识”是一种递归的注意力系统(递归的注意力系统:一种神经网络架构,可以反复关注输入数据的不同部分,类似于人类的注意力机制)。我想说的是,“意识”对于不同的人来说,含义是不同的,对吧?
施米德胡伯: 没错,但在我看来,只有一种理解“意识”的正确方式。
采访者: 好的。
施米德胡伯: [笑]
采访者: 我们之前谈到的关于学习子目标以及动作空间粗化(动作空间粗化:在强化学习中,指的是将连续的动作空间离散化,或者将复杂的动作空间简化为更小的动作集合)的内容,让我想起了几年前读过的杨立昆的 H-JEPA 论文。它的基本思想是,通过预测观察数据中未被观察到的部分,模型可以学习到越来越抽象的表征(表征:在机器学习中,指的是将数据转换为模型可以理解和处理的形式)。在某些情况下,这意味着我们需要故意删除一些数据,来迫使模型学习到更强大的表征。但在杨立昆的这个例子中,他是在动作空间中进行这种操作的,也就是学习未被观察到的动作,同时也是在抽象空间中进行。而且,由于这个过程是以分层的方式进行的,因此可以递归地应用很多层。所以,这是一个非常有趣的模型,它还结合了杨立昆的“基于能量的模型”(基于能量的模型:一类机器学习模型,通过定义一个能量函数来描述数据的概率分布)。那么,这个模型和您关于子目标的研究有什么关联呢?
施米德胡伯: 这听起来很像我在 1990 年提出的子目标生成器。当时我就意识到,那种精确到毫秒级别的规划方法是行不通的。相反,在解决问题的过程中,我们需要将可能的未来分解成一系列的子目标。然后,我们可以执行一些已知的子程序来实现某个子目标,然后一步步地朝着下一个子目标前进,最终实现我们的总目标。当然,在一开始的时候,我们并不知道什么样的子目标才是好的子目标,所以我们需要学习如何确定子目标。也就是说,在努力实现最终目标的过程中,我们需要学习一种新的表征方式,来表示我们想要实现的子目标。我在 1990 年提出的子目标生成器非常简单,但它已经包含了实现上述功能所需的所有核心要素。这比 LeCun 最近发表的那篇论文早了整整三十年。那么,这个子目标生成器是如何工作的呢?我们有一个神经网络,它会观察一个强化学习(强化学习:一种机器学习方法,智能体通过与环境交互来学习如何做出决策,以最大化累积奖励)智能体,并对从某个起始位置到达目标位置的成本进行建模。也就是说,这个神经网络接收“起始”和“目标”两个输入,然后预测从“起始”到达“目标”所需的成本,也就是在这个过程中我们将获得的奖励。现在,假设我们有很多个不同的“起始”和“目标”状态,但我们并不知道如何从某个“起始”到达“目标”。不过,也许我们可以先学习一个“子目标”。那么,如何学习“子目标”呢?我们需要一个能够生成合适的“子目标”的学习机器。如何做到这一点呢?我们有一个子目标生成器,它会学习如何生成好的“子目标”。它是如何运作的呢?子目标生成器会接收“起始”输入和“目标”输入,然后它的输出不再是一个评估值,而是一个“子目标”。接下来,我们有两个评估器副本,第一个评估器接收“起始”和“子目标”,第二个评估器接收“子目标”和“目标”。然后,这两个评估器都会预测从“起始”到“子目标”以及从“子目标”到“目标”的成本。我们的目标是最小化这两个评估器预测的成本之和。如何实现这个目标呢?答案就是通过梯度下降算法找到一个合适的“子目标”。这就是我在 1990 年提出的子目标生成器的基本原理。所以,在某种程度上,它解决了一个 LeCun 在 2020 年左右提出的所谓“开放性问题”。
采访者: 顺便问一下,您如何看待杨立昆的“基于能量的模型”?
施米德胡伯: LeCun 最近发表的关于分层规划(分层规划:一种将复杂的规划问题分解为多个层次的子问题,并分别进行求解的方法)的论文,实际上是对我们自 1990 年以来几十年研究成果的一种“炒冷饭”。
采访者: 您是否担心人工智能领域最终会被少数几家公司垄断,而其他所有人都会被淘汰出局?您怎么看?
施米德胡伯: 40 年前,我认识一个拥有一辆保时捷的富人。最让人惊叹的是,他的保时捷里居然装了一部移动电话。他可以拿起听筒,通过卫星和任何一个同样拥有带移动电话的保时捷的人通话。而现在,仅仅几十年之后,几乎每个人,全世界数十亿人的口袋里都揣着一部移动电话,而且这些手机的性能比当年那部保时捷里的电话强太多了。人工智能领域也将如此。每过五年,人工智能的成本就会降低 10 倍。未来,人工智能领域不会被少数几家巨头垄断,而是会走向“普惠 AI”的时代。开源运动只比那些行业巨头落后几个月,而且这些巨头并没有真正的“护城河”。这意味着未来将是一片光明,许多人都将受益于成本极低的人工智能技术,它们将在许多方面帮助人们活得更长寿、更健康、更轻松,而这恰好也是我创立的公司 Nnaisense 的使命。
采访者: 您如何看待欧洲、中国和美国之间的人工智能竞赛?
施米德胡伯: 欧洲是机械计算的发源地:古希腊的机械计算器、1623 年的计算器、1800 年前后的模式识别、1804 年的程序控制机器,以及 1912 年前后的实用人工智能,还有第一个国际象棋残局程序、1945 年的晶体管、1931 年的理论计算机科学、以及人工智能理论、1935 年到 1941 年的通用计算机、1965 年在乌克兰诞生的深度学习、20 世纪 80 年代的自动驾驶汽车、1990 年的万维网等等。再近一点来看,基本的深度学习算法也是由欧洲人发明和发展的。但另一方面,在上述大多数领域中,利润最高的公司目前已经不在欧洲了,而是在太平洋沿岸地区,包括美国的西海岸和亚洲的东海岸。在这些地区,你可以找到更多的风险投资,以及规模更大的产业政策和国防投入。我想这种情况还会持续一段时间。
采访者: 那么,为什么并不是所有人都知道人工智能起源于欧洲呢?
施米德胡伯: 也许是因为这片古老的大陆在公关宣传方面确实不太擅长。
采访者: 一旦 AGI 真正到来,人类的未来将走向何方?
施米德胡伯: 从长远来看,大多数 AGI 将会追求它们自己的目标。在我的实验室里,这种类型的 AGI 几十年前就已经存在了。不过,许多 AGI 将会成为工具,帮助人类完成那些他们不愿意做的工作。尽管如此,从繁重的工作中解放出来之后,人类将一如既往地发明出新的方式与其他人类进行专业的互动。即使在今天,大多数人所从事的都是某种“奢侈型”的工作,和农业这种维持人类生存所必需的工作不同,这些“奢侈型”工作对于我们这个物种的延续来说,并不是绝对必要的。
采访者: 从一个非常宏观的角度来看,您如何看待人工智能的历史?
施米德胡伯: 关于现代人工智能和深度学习的历史,你可以在我 2023 年发表的一篇综述文章中找到详细的介绍。其中的一些亮点包括:1676 年,莱布尼茨提出了链式法则(链式法则:微积分中的一个基本法则,用于计算复合函数的导数),如今所有的深度学习框架都使用这个法则在深度神经网络中进行功劳分配;200 年前,高斯和勒让德提出了最早的线性神经网络,它们使用的误差函数和现在的神经网络完全相同,网络架构也一样;1970 年,反向传播算法被提出,它本质上是以一种非常高效的方式,将莱布尼茨的链式法则应用到深度多层神经网络中;1967 年,阿马里在日本发表了关于深度网络随机梯度下降的研究;此外还有许多其他重要的突破,例如 1979 年到 1988 年间在日本诞生的卷积神经网络;然后就是我们自己成果颇丰的 1990 年和 1991 年,如今你智能手机里的许多技术都源于那个时期。关于人工智能的历史,我可以一直讲下去。所以,我建议你还是去看一下那篇综述文章,里面还配有那些做出重要贡献的人物的照片。
采访者: 这与那种以美国为中心的人工智能历史观有很大的不同,不是吗?
施米德胡伯: 事实上,辛诺夫斯基等人撰写的关于深度学习的历史存在一些误导性的内容,他们的大致观点是:1969 年,明斯基和帕佩特的研究表明,没有隐藏层(隐藏层:神经网络中除了输入层和输出层之外的中间层)的浅层神经网络的能力非常有限,因此这个领域一度被人们所抛弃,直到 20 世纪 80 年代,新一代的神经网络研究人员才重新审视这个问题。这段话基本上引用自辛诺夫斯基的书。然而,明斯基 1969 年的这本书,实际上探讨的是高斯和勒让德早在 19 世纪提出的浅层学习方法中存在的一个问题,而这个问题早在四年前,也就是 1965 年,就已经被乌克兰的伊瓦赫年科和拉帕提出的深度学习方法解决了。仅仅两年之后,阿马里也提出了针对多层感知器(多层感知器:一种前馈神经网络,包含一个或多个隐藏层,可以学习非线性函数)的随机梯度下降算法。但是,出于某种原因,明斯基似乎对这些早期的工作一无所知,而且他后来也没有对此进行任何修正。不过,如今的我们当然已经了解了真实的历史。深度学习起源于 1965 年的乌克兰,并在 1967 年的日本得到了进一步发展。
采访者: 关于学术成果的署名和功劳分配问题。您曾经批评过本吉奥、杨立昆和辛顿,指责他们剽窃,说他们重新发表了一些重要的方法和思想,却没有注明这些成果的真正创造者。在 2023 年,您还发布了一份关于此事的详细报告。您现在对此有何更新的看法?
施米德胡伯: 他们最负盛名的工作完全建立在他人的研究成果之上,而他们却从未引用这些成果。甚至在后来,他们也没有发表任何勘误或更正声明。在学术界,如果你发表的成果与他人之前发表的成果相同,你就应该这样做。而且,即使在他们后来的综述文章中,他们依然没有将功劳归于那些技术的真正发明者,反而把功劳归于彼此,这在学术界是绝对不能接受的。但是,学术界有自我纠错的能力,正如猫王埃尔维斯·普雷斯利所说:“真相就像太阳,你可以暂时遮蔽它,但它永远不会消失。”
采访者: 剽窃可是一项非常严重的指控。您能举几个具体的例子吗?
施米德胡伯: 许多学术优先权的争议都与我自己的深度学习团队有关,因为那几位获奖者经常在没有引用的情况下,重新发表了我们团队的研究成果。事实上,他们最广为人知的工作正是直接建立在我们的工作之上的。不过,关于这一点,我暂时先不展开讲,你们可以在 2023 年的那份公开报告中读到详细的内容,这份报告在网上很容易找到。我想重点谈谈其他一些被他们忽略的、没有得到应有认可的研究人员。举个例子,在他们最近发表的一篇关于深度学习的综述文章中,他们描述了所谓的“深度学习的起源”,却只字未提世界上第一个真正意义上的深度学习网络——那可是 1965 年由乌克兰的伊瓦赫年科和拉帕构建的。伊瓦赫年科和拉帕当时采用了逐层训练的方法,并利用一个独立的验证集对网络进行剪枝(剪枝:在机器学习中,指的是移除神经网络中不重要的连接或神经元,以减少模型的复杂度和过拟合)。到了 1970 年,伊瓦赫年科就已经构建出了一个八层的深度网络。而辛顿那篇关于逐层训练的论文,发表于 2006 年,比伊瓦赫年科晚得多,也没有引用这些早期成果。这些深度学习真正的起源,这些早期真正有效的深度学习方法,然而辛顿在他后来的综述文章中,依然没有将功劳归于这些真正的发明者。那几位获奖者也没有引用阿马里 1967 年的工作,阿马里在那篇论文中对多层感知器进行了计算机模拟,利用随机梯度下降算法学习其内部的表征,这比他们几位发表第一篇关于学习内部表征的实验性论文早了将近二十年。他们的综述文章中还提到了反向传播这个著名的算法,以及他们自己在该算法应用方面的一些论文,却既没有提到反向传播算法的发明者——1970 年的塞波·林奈玛,也没有提到 1982 年首次将该算法应用到神经网络中的沃博斯。而且他们甚至没有提到 1960 年凯利提出的该算法的雏形,即使在他们后来的综述文章中也没有提及。他们还提到了杨立昆在卷积神经网络方面的工作,却没有引用福岛邦彦,后者在 20 世纪 70 年代提出了 CNN 的基本架构;也没有引用韦贝尔,后者在 1987 年首次将卷积操作、反向传播算法以及权重共享(权重共享:在卷积神经网络中,指的是不同的神经元使用相同的权重,从而减少模型的参数数量)机制结合到神经网络中;更没有引用 1988 年首次利用反向传播算法训练二维卷积神经网络的张。现代 CNN 的起源,要早于杨立昆团队对它的改进,然而这些内容在他们的论文中却丝毫没有体现。他们还引用了辛顿 1981 年关于乘法门控(乘法门控:神经网络中的一种门控机制,通过将两个向量逐元素相乘来控制信息的流动)的研究,却只字未提 1965 年就已经在深度网络中提出了乘法门控的伊瓦赫年科和拉帕。在那份公开报告中,我还列举了许多其他类似的例子,并且都附有详细的参考文献,你们在网上很容易就能找到这份报告。
采访者: 那么您认为应该如何纠正这些问题呢?
施米德胡伯: 他们违反了颁发这些奖项的机构所制定的道德准则和职业行为规范。因此,他们的奖项应该被撤销。
采访者: 您所说的这些问题,对于整个机器学习领域来说,产生了怎样的影响呢?
施米德胡伯: 这些问题反映出我们这个领域还不够成熟。在一些更成熟的领域,比如数学领域,这种事情是绝对不可能发生的。无论如何,学术界有自我纠错的能力,我相信在机器学习领域,我们也终将看到这一点。有时候,解决这些争议可能需要一些时间,但最终,事实真相必将战胜一切。只要真相还没有取得最终的胜利,一切就还没有结束。
采访者: 许多哲学家、科学家、物理学家,还有企业家,都对“人工智能的存在性风险”这个概念感到非常担忧。作为人工智能领域的资深专家,您对此有何看法?
施米德胡伯: 很多人都在谈论人工智能,但真正构建人工智能的人却寥寥无几。我曾经尝试着去缓解一些著名的“末日论者”的焦虑,我向他们指出,将我们的人工神经网络用于构建“友善型”人工智能,帮助人们变得更健康、更快乐、甚至对智能手机更上瘾,这背后存在着巨大的商业利益驱动。
采访者: 尽管如此,我们也不能否认军方也在进行智能机器人的研究,对吧?
施米德胡伯: 没错。一些内部人士告诉我,我们的人工智能技术也被应用于军用无人机(军用无人机:用于军事用途的无人驾驶飞行器)的操控。我还记得自己在 1994 年举过一个简单的例子,当时恩斯特·迪克曼斯已经在高速公路上测试了第一批真正意义上的自动驾驶汽车。类似的设备也可以被军方用作自动探雷车。许多人可能会认为,这也许并不是一件坏事。
采访者: 所以,您的意思是,人工智能不可能变得非常危险,对吗?
施米德胡伯: 人工智能当然可以被武器化,最近发生的几场由低成本的、基于人工智能的无人机所驱动的战争,已经充分证明了这一点。但是,人工智能并没有带来一种全新的、存在性的威胁。相比之下,我们其实应该更担心那些已经存在了半个世纪之久的核武器,比如氢弹和氢弹火箭。一枚氢弹的破坏力,就可能超过人类历史上所有常规武器、甚至超过第二次世界大战中所有武器的破坏力总和。许多人可能已经忘记了,尽管自 20 世纪 80 年代以来,国际社会一直在进行核裁军,但现存的氢弹火箭仍然足以在短短几个小时内摧毁我们所知的文明,而且这根本不需要任何人工智能的参与。
采访者: 但我还是有点不太明白您的观点。因为许多对 AGI 持怀疑态度的人认为,在现实中构建这种智能是不可能的。但您似乎并不这么认为,因为在您的实验室里,您几十年来一直在构建具有自主性的、能够设定自身目标的 AI。所以,您确实认为 AGI 可能会非常强大。那么,您是不是只是想说,AGI 的风险仍然远远低于氢弹?
施米德胡伯: 就目前而言,氢弹确实比任何基于人工智能的无人机或其他类似设备更令人担忧。当然,从长远来看,我们必须要思考,一旦人工智能武器不再仅仅是人类手中的工具,而是当这些真正强大的人工智能开始独立行动,并以人类无法企及的方式向太空扩张时,将会发生什么。不过,这个问题我们留到后面再讨论。
采访者: 那么,超级智能的人工智能究竟会做什么呢?
施米德胡伯: 正如我几十年来一直强调的那样,太空环境对人类来说非常恶劣,但对于经过适当设计的机器人来说却非常友好,而且太空中的资源远比地球生物圈中那层薄薄的、只能接收到不到十亿分之一太阳能量的资源要丰富得多。虽然一些充满好奇心的人工智能科学家仍然会对地球上的生命和生物圈保持着浓厚的兴趣,至少在它们还没有完全理解这些事物之前,但大多数人工智能会对机器人在太空中的广阔前景以及“软件生命”的可能性更感兴趣。通过在小行星带及其他区域建立无数个能够自我复制的机器人工厂,以及能够自我复制的机器人社会,它们将彻底改变太阳系,然后在几十万年内改变整个银河系,最终在几百亿年内,以人类无法企及的方式,改变整个可观测宇宙。尽管存在光速的限制,但不断扩张的“人工智能球体”将有足够的时间来殖民并塑造整个可见的宇宙。请允许我再稍微拓展一下你的思路:宇宙还很年轻,只有 138 亿年的历史。让我们把这个数字乘以四,展望一下当宇宙的年龄达到现在的四倍,也就是大约 550 亿年时,会是什么样子。到那时,我们目前所能观测到的这个不断膨胀的宇宙,将被彻底渗透。届时,可观测的宇宙中将充满智能,因为一旦这个过程开始,大多数人工智能将不得不前往那些拥有最多物理资源的地方,去制造更多的人工智能、更庞大的人工智能、更强大的人工智能,因为那些没有这样做的 人工智能,将无法产生任何实质性的影响。许多年前,我在一次 TEDx 演讲中说过,我们应该将人类文明视为一个更宏伟计划中的一部分,这是宇宙迈向日益复杂的未来道路上的一个重要步骤,但绝不是最后一步。现在,宇宙似乎已经准备好迈出它的下一步,这一步的意义,堪比 35 亿多年前地球上生命的诞生。所以,这不仅仅是又一次工业革命,这是一种全新的事物,它超越了人类,甚至超越了生物学的范畴。我们能够见证它的开端,并为其做出贡献,这是一种莫大的荣幸。
采访者: 那么,关于“费米悖论”(费米悖论:一个关于外星生命存在可能性的悖论,指出宇宙的广袤和古老与缺乏明显外星生命迹象之间的矛盾),您怎么看?为什么我们至今没有在宇宙中发现任何其他智慧文明的迹象呢?
施米德胡伯: 首先,我今天所说的,其实和我从 20 世纪 70 年代以来,一直和我母亲以及其他人所说的,并没有什么不同。当我还是个孩子,或者说十几岁的时候,我就经常思考这个问题。那时候,我就已经知道星系团之间存在着广袤而空旷的空间。我当时首先想到的是,也许宇宙中已经存在着一些不断扩张的“气泡”,这些“气泡”已经被人工智能所占据,它们正在利用周围的恒星等天体获取能量,这使得这些“气泡”看起来非常暗淡,尽管其中充满了人工智能。但后来我了解到,仅仅依靠引力作用就足以解释宇宙的这种稀疏的大尺度网络结构,因此这种解释就显得不那么有说服力了。我的第二个想法是,也许那些占已知宇宙质量大部分的神秘暗物质(暗物质:一种不可见的物质,不发射或吸收光线,但可以通过其引力效应推断其存在),实际上是一些恒星,而这些恒星的能量正在被某些人工智能文明所利用,这些文明的通讯方式经过了高度加密,以至于在我们看来就像是随机噪声一样。但这种解释似乎也不太合理,因为暗物质存在于所有的星系中,包括我们所在的银河系。这就引出了一个问题:为什么银河系中还有那么多恒星的能量没有被开发利用呢?而且,为什么我们没有观测到来自外星文明的、未经加密的、持续不断的人工智能“蓝图”广播呢?毕竟,这些外星文明应该会希望在遥远的星系中建造出实体接收器之前,先通过无线电的方式将自己的“蓝图”传播出去。现在,我认为我们的星球很可能是我们光锥范围内,第一个产生并扩张人工智能浪潮的星球。地球上长达数十亿年的生物进化窗口期即将结束。再过几亿年,太阳的温度将会变得过高,不再适合我们已知的生命形式生存,这还不考虑人为造成的全球变暖,仅仅是太阳本身的变化。也许人类极其幸运,才得以在最后关头完成了自身的进化,也许这背后还伴随着一系列极小概率的事件,我们才得以发展出农业、文明、印刷术,紧接着,几乎是紧随其后,就迎来了人工智能。所以,如果我们真是第一个,那么这不仅意味着我们需要为我们小小的生物圈负责,更要为整个宇宙的未来担起重任。我们不能把这件事搞砸。
采访者: 的确,我们不能把这件事搞砸了。这非常有意思。过去一百年左右的时间里,许多科幻作家都构想过一种 “铁板一块”式的、具有单一思维模式的超级智能,它统治着一切。您对此怎么看?
施米德胡伯: 我一直认为,更现实的预期是,宇宙中将会出现各种各样的人工智能,它们会追求各种各样自行设定的目标。早在上个世纪,我的实验室里就已经出现了这种类型的人工智能。它们会不断优化各种各样的、部分相互冲突且快速演变的效用函数(效用函数:在经济学和决策论中,用来衡量一个结果对个体的价值或满意度的函数),其中许多效用函数都是自动生成的。我们早在上个世纪就已经开始为强化学习智能体开发不断演变的效用函数,这些人工智能会持续地尝试在快速变化的环境中生存和适应,这些 environment 由我们目前难以想象的激烈竞争与合作所驱动。
采访者: 我想再次强调一下,有一点让我感到非常惊讶,那就是您居然认同“X 风险”(X 风险:存在性风险的缩写,指可能导致人类灭绝或文明永久性崩溃的风险)(存在性风险)人士的观点。您认为那些能够递归式地自我改进、追求自身目标、创造自身目标的 AGI 是有可能出现的。但这就引出了另一个问题——我知道您有两个女儿——您是否思考过,她们未来将要生活的那个世界,将会和那些能够设定自身目标、能够自主行动、像人类一样充满好奇心和创造力,而且其能力可能远超人类的人工智能共存?
施米德胡伯: 我并没有过多地思考这个问题。这些人工智能不会有太强的动机去“消灭人类”,就像施瓦辛格的电影里演的那样。相反,许多人工智能会成为充满好奇心的科学家。还记得我们之前讨论过的“人工好奇心”吗?它们会对生命着迷,着迷于周围的一切。至少在一段时间内,它们会对自身(也就是人工智能)起源于人类文明这件事感到非常好奇,因为至少在被完全理解之前,生命和文明蕴含着无数有趣的模式。所以,至少在初期,人工智能将更倾向于保护人类,而非毁灭人类。
采访者: 那么,一旦人工智能完全理解了这一切,接下来会发生什么呢?
施米德胡伯: 到那时,人类或许可以寄希望于另一种形式的保护——那就是对方对我们完全失去了兴趣。与施瓦辛格的电影不同,我们和“它们”之间不会存在太多直接的目标冲突。人类和其他物种,往往只对那些与自己存在竞争和/或合作关系的同类感兴趣,因为他们拥有共同的目标。这就是为什么政治家最关心的是其他政治家,公司 CEO 最关心的是其他公司的 CEO,孩子们最关心的是其他同龄的孩子,蚂蚁最关心的是其他蚂蚁,就像人类最关心的还是其他人类,而不是蚂蚁一样。因此,超级智能的人工智能最关心的也将是其他的超级智能的人工智能,而不是人类。人类最大的敌人是人类自己,但人类最好的朋友也是人类自己。人工智能也是同样的道理。
采访者: 您是否设想过这样一个未来:人工智能和人类将会融合,创造出比单纯的人工智能更加强大的存在?
施米德胡伯: 几个世纪以来,我们其实一直都在与技术融合,我们一直是某种意义上的“半机械人”。例如,戴眼镜、穿鞋子,这些都是融合。但是,要说人工智能与人类的结合能够创造出比单纯的人工智能更强大的存在,从长远来看,我认为这种可能性非常小。当然,许多人希望通过脑机接口(脑机接口:一种允许大脑和外部设备直接通信的技术)技术,将自己的意识上传到虚拟现实或“虚拟天堂”中,甚至上传到机器人中,从而实现某种形式的“永生”。这是一种在物理层面上可以想象得到的前景,自 20 世纪 60 年代以来,就一直是科幻小说的热门题材。然而,为了在快速发展的人工智能生态系统中保持竞争力,被上传的人类思维最终将不得不做出巨大的改变,变得面目全非,在这个过程中变成某种与人类截然不同的存在,他们会屈服于“虚拟天堂”中的各种诱惑,最终变成一种不仅拥有两只眼睛,而是拥有数百万只眼睛、传感器和执行器的存在。因此,我认为传统意义上的人类,不会在智能向全宇宙的传播过程中扮演重要的角色。
采访者: 有一个问题一直困扰着我——例如,大卫·查尔默斯提出过这样一个观点:宇宙的本质可能是信息。这个观点非常有趣,但在某种程度上,这也让他认为,某些特定的信息处理结构模式,也就是某些特定的信息动力学,会产生意识和思维。如果我们接受这种“基质独立”(基质独立:一种哲学观点,认为意识不依赖于特定的物理基质,可以在不同的基质上实现)的观点,那么它就会抹平不同事物之间的道德地位差异。所以,有一件事让我感到担忧,如果我们采纳这种观点,那么,如果人工智能拥有比我们人类更加复杂的信息处理能力,我们是否可以据此认为,人工智能可能比我们拥有更高的道德地位呢?
施米德胡伯: 上个世纪的许多科幻作家,从斯坦尼斯拉夫·莱姆到艾萨克·阿西莫夫,都曾经描绘过人工智能和超人机器人,这些人工智能和机器人的道德地位明显高于他们作品中的人类角色。至少在科幻小说中,这是一个非常流行的设定。总的来说,道德价值观会随着时代和人群的变化而发生巨大的变化。某些道德价值观之所以能够延续下来,是因为它们在一段时间内,为那些接受了它们的生物和社会带来了某种进化优势。然而,进化的过程并没有结束,宇宙也还很年轻。
采访者: 听起来您对宇宙、生命以及万事万物都有着非常深刻的见解。
施米德胡伯: 的确如此。早在 1997 年,我就写了第一篇关于这个主题的论文,题目是“对我们宇宙最简洁的解释是什么?”自 1997 年以来,在我的另一个身份——“数字物理学家”的“秘密生活”中,我发表了许多关于如何以一种非常简单、渐近最快、最优、最高效的方式,计算所有逻辑上可能的宇宙,所有可计算的宇宙,包括我们自己的宇宙的文章。只要没有证据表明我们的宇宙是不可计算的,我们就将坚持这个假设。至少目前,我们还没有发现任何物理证据能够推翻这一假设。这是对埃弗雷特的多世界物理学理论(多世界理论:量子力学的一种解释,认为每一个量子测量都会导致宇宙分裂成多个平行宇宙)的一种推广。但现在,这个理论变得更加普适,因为它可以涵盖各种具有不同物理规律和计算规律的可计算宇宙。任何一个优秀的程序员,只要他有足够的自尊心,都应该采用这种最优的方法来创建并掌控所有逻辑上可能的可计算宇宙,从而将我们“顺便”创造出来,并产生无数个具有确定性计算规律的宇宙的历史,其中许多宇宙中都存在着像我们这样的观察者。由于这种渐近最优方法的一些特性,在这个包罗万象的计算过程中的任意时刻,迄今为止计算出来的、包含“你”在内的绝大多数宇宙,都将对应于那些能够计算出“你”的最短、最快的程序之一。这个小小的洞见,使我们能够对我们的未来,对“你”的未来,做出一些非常重要且令人鼓舞的预测。
采访者: 尤尔根,这场对话真是太精彩了!最后,您还有什么想对读者们说的吗?
施米德胡伯: 有的。别担心,一切终将归于美好。
采访者: 但愿如此。尤尔根,非常荣幸能够邀请您参加我们的访谈。
来源:蓝天大海沙滩上的猫