摘要:今年3月揭晓的2024年图灵奖,授予了强化学习领域的两位奠基人——安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。这对师徒在 20 世纪 80 年代提出并系统构建了强化学习的核心思想、数学基础与关键算法,推动了人工智能研
今年3月揭晓的2024年图灵奖,授予了强化学习领域的两位奠基人——安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。这对师徒在 20 世纪 80 年代提出并系统构建了强化学习的核心思想、数学基础与关键算法,推动了人工智能研究从感知走向决策。从自动驾驶、机器人,到围棋 AI、自然语言处理乃至大模型训练,强化学习已成为现代人工智能的关键支柱之一。
尼克是巴托的学生、萨顿的师弟,他正在撰写关于强化学习的系列文章,《赛先生》将陆续发布,敬请期待。今天这篇文章是第一篇,其中,他回顾了两位获奖人的合作与强化学习的崛起。
今年的图灵奖颁给我的老师巴托和大师兄萨顿,实至名归。他们两位是强化学习的代表人物。现代强化学习是他们领导的群体在1980年代开创的。2016年谷歌的围棋程序AlphaGo击败李世石后,其背后的强化学习变为显学,我每年都预测巴托和萨顿该得图灵奖,此番终于应验。
2016年,AlphaGo使得一直没得重视的强化学习发出亮光。把强化学习用到AlphaGo中,主要归功于其开发者、DeepMind曾经的首席科学家席尔瓦(David Silver)。我曾戏言,如果图灵奖同时颁给他们爷孙仨,那倒是一段老中青三代同时得奖的佳话——萨顿是巴托在麻省大学的第一个博士生,而席尔瓦又是萨顿在加拿大阿尔伯塔大学的第一个博士生。曾任阿尔伯塔大学教务长和理学院院长的乔纳森·舍弗(Jonathan Schaeffer)是计算机系教授,他开创了阿尔伯塔计算机下棋和博弈的研究传统,席尔瓦把强化学习用到围棋,并非偶然。
2018年的图灵奖颁给了深度学习的三位人物,辛顿(Geoffrey Hinton)、班乔(Yoshua Bengio)以及杨立昆(Yann LeCun)。辛顿老兵不老,当之无愧。但班乔和杨立昆还年轻,没吃过什么苦,当时他们两位在深度学习圈子以外鲜为人知,大概是因为2015年曾经和辛顿一起写过篇综述性文章,登在Nature上,使得人们认为他们都是这个领域的领军人物。某些圈内人对大嘴巴的杨立昆颇为不屑。其实2018年那次如果颁给辛顿、巴托和萨顿,争议会更少。
很多朋友早就说我该为巴托和萨顿写些东西备着,因为他们之得奖是必然的。我原想他们的故事我太熟了,其中一些已被我写到《人工智能简史》中,随手拈来。但真临提笔,却思绪万千,竟不知从何说起,应该更多写他们的故事,还是更多写他们的学问和环境。
想来这一切源于巴托1975年从密执安大学博士毕业后被神人阿比卜(Michael Arbib)招到麻省大学计算机系。就从那儿说起吧。
迈克尔·阿比卜(Michael Arbib,1940—)
SAIXIANSHENG
阿比卜与麻省大学计算机系
美国最早的一批计算机相关的系科都创办于1960年代中期,那时有些系直接叫“计算机科学系”,而有些则叫“计算机与信息科学系”,或“计算机与通讯系”,带“信息”或“通讯”的都有些“控制论”的背景,如麻省大学计算机与信息科学系(Computer and Information Science,简称COINS)的创办人是维纳的最后一个学生阿比卜(Michael Arbib)。而密歇根大学则叫计算机与通信科学系。这些系后来都改名叫计算机系了。原来的图书馆系现在纷纷改名叫信息科学系,而加州大学伯克利分校和华盛顿大学的图书馆学院都改名叫信息学院(School of Information,简称ischool),连“科学”都省了。
得维纳真传的人不多。阿比卜23岁就在维纳手下得了博士。阿比卜本是英国犹太人,他爸“二战”时当兵被俘,战后举家迁到澳大利亚。他在悉尼大学读数学,大学时博览群书,而对他影响最大的是维纳的《控制论》、麦卡洛克和皮茨的神经网络、拉宾和斯考特的有限自动机,以及麦卡锡和香农编辑的文集《自动机研究》(Automata Studies)。他认真研读过图灵1936年的经典论文《论可计算的数》,自称曾挑出过31个错,还翻译了哥德尔1931年那篇改天换地的文章(该文的正式译文被收入逻辑学家海因诺特编辑的文集《从弗里格到哥德尔》)。他选择到麻省理工学院读博士,因为那里除了维纳、麦卡洛克、皮茨之外,还有年轻而野心勃勃的麦卡锡和明斯基。阿比卜到麻省理工学院时,维纳和麦卡洛克已经失和。尽管阿比卜名义上的导师是维纳,但后者很少提供指导,因此他实际上花了更多时间和维纳的对头麦卡洛克在一起。他在博士学位的工作都做完后才告诉维纳,维纳大怒。阿比卜曾如此评论维纳:“伟人,但有人格缺陷。”
麦卡锡当年选择用“人工智能”(尽管这个词并不是他原创)这一新词来标识他和香农、明斯基等开创的新学科,本意是作为“控制论”的反动而不是同流。阿比卜也没有把自己局限于控制论的狭隘圈子里。和出身于控制或者其他工程类专业的人工智能从业者不同,他精通计算理论,创建麻省大学计算机系时,一直吸引计算理论的人才。他本人是全才,出版过计算理论、人工智能、脑科学等多种专著,甚至还一度玩过高深莫测的范畴论。“控制”在计算机科学的萌芽期并不完全是个糟糕的词儿,毕竟计算理论最权威的杂志之一《信息与计算》(Information and Computation)的前身就叫《信息与控制》(Information and Control),其创办者是物理学家兼信息论学者布里渊(Léon Brillouin),直到1987年才由“控制”改为“计算”。阿比卜的本科毕业论文发表在美国计算机学会会刊JACM上,题为“Turing Machines, Finite Automata, and Neural Nets”,其“杂驳”在这篇文章中已初露端倪。他1964年就出版了科普书《大脑、机器和数学》,该书1982年由朱熹豪、金观涛译成中文。我正是看了这本书动了到麻省大学投奔阿比卜的念头。
1980年代末我到麻省大学时,阿比卜刚结束在南加州大学一年的学术休假,决定离开麻省大学,正式加盟南加州大学,担任南加大一堆系(包括计算机、生物、生物医学工程、电气工程、神经科学,还有心理)的教授。但阿比卜最终并未成为开天辟地的宗师,有愧于他的天分和才华。南加州大学没有因为他的到来而添彩,而麻省大学计算机系却因为他的出走而失去了自己的特色和主心骨。遗传算法的祖师爷霍兰德说过:老师的影响力很大程度上要看有没有出息的学生,学生是学术圈生态环境的一个环节。麻省大学有阿比卜需要的生态环境,南加州大学则有名无实。阿比卜晚年为自己日渐衰落的学术影响力找过借口,他认为原因之一是马尔(David Marr,计算机视觉的大佬,在1980~1990年代颇具影响力)学派的当道。马尔和那一小撮把他当神一样供奉的学生曾经一度统治了视觉研究领域,马尔的早逝加剧了马尔神话,他的书Vision(《视觉》)也成为学生们的“圣经”。阿比卜认为马尔的工作源于自己的工作,但“圣经”里并没提及,仿佛一切都是马尔自己一夜之间发明的。
1975年麻省大学的莱斯曼(Ed Riseman)在美国计算机学会的《人工智能分会快报》(SIGART Newsletter)上发表过一篇文章,介绍麻省大学计算机与信息科学系(COINS)的人工智能研究,当时的COINS开始分为理论、系统(包括软件和硬件)和控制论三个方向,而控制论后来成为人工智能。这种分法也是后来所有计算机系的标配。COINS当时一共有13位教授,其中5位从事人工智能和控制论。阿比卜一开始坚持“控制论”而拒绝用“人工智能”,有两方面原因:其一,他毕竟是维纳的学生,且他终身的学术兴趣是为大脑建模(brain modeling);其二,“人工智能”这个词儿的流行是在1970年代中期。按照阿比卜的一家之言,人工智能是控制论的替代品。至少从时间轴上看,这也不能算错。维纳的控制论自问世从没进入过人工智能的主流,现在更无人问津。大概只有强化学习还留有些许控制论的影子。
COINS的人工智能研究分为两条线,一条以莱斯曼为首的人工智能路线,另一条是阿比卜亲自挂帅的脑理论(Brain Theory)路线,阿比卜的组内还有在哺乳动物视觉系统做过重要工作的意大利神经生理学家斯宾尼利(Nico Spinelli),当时有传他被提名过生理诺奖。阿比卜还成立了“系统神经科学中心”(Center for Systems Neuroscience),联合心理、生理以及医学的资源。因为阿比卜本人涉猎极广,人工智能和自然智能这两条路线互有借鉴。
1980年代末的某一学期,麻省大学的一学期人工智能课程独树一帜,由计算机系的所有人工智能教授联合开,每人负责一个主题(如下表),主要参考书目是费根保姆和寇恩等主编的《人工智能手册》,每个老师也会有自己的教辅材料。计算机系如此开课只此一回,但让我赶上了。
以上课表证明在阿比卜离开时,麻省大学的计算机和人工智能的教师团队确是顶流。
SAIXIANSHENG
强化学习的诞生:巴托和萨顿
和莱斯曼于1975年发表文章的同期,《人工智能分会快报》(SIGART Newsletter)还刊登了另一篇题为“自然智能与人工智能之比较”(A comparison of natural and artificial intelligence)的文章,作者是主管美国空军人工智能资助的克劳普夫(Harry Klopf)。阿比卜和斯宾尼利(Nico Spinelli)联合向克劳普夫申请课题经费,申请成功后,阿比卜和斯宾尼利招了一个博士后做具体工作,他就是安德鲁·巴托。巴托到任时,阿比卜去学术度假了。
安德鲁·巴托(1948—)
莱斯曼文章中没有提到巴托。巴托在密歇根大学的博士论文研究的是细胞自动机,他在那里的两位老师也都是做细胞自动机出身,其中霍兰德(John Holland)发明了遗传算法,也是“涌现”(emergence)概念的提出者。
克劳普夫资助阿比卜和斯宾尼利的条件之一是,课题组必须招收一个他的熟人——一位从斯坦福大学刚毕业的“极聪明的本科生”理查德·萨顿。萨顿本科学的是心理学,研究动物怎么适应环境一直是他的兴趣。由于克劳普夫的安排,萨顿到了了麻省大学并成为巴托的第一个博士生。
理查德·萨顿(1957-)
巴托加入麻省大学时,正是神经网络的低潮,于是他学老师,把自己的实验室命名为“可适应系统”(Adaptive Systems),这个名字听起来和神经网络保持一定距离。1980年代中期,随着Hopfield网络的流行和通用逼近定理的出现,人们逐渐改变对神经网络的看法。在加州大学圣地亚哥分校由几位认知心理学家领导的PDP(平行分布处理)运动标志着神经网络的一次短暂的复兴。辛顿和巴托都是这次PDP运动的干将。
但此时巴托和萨顿已经形成了他们自己关于学习的第一性原理,那就是强化学习。他们有时也把强化学习中的目标制导(goal-seeking)称为“享乐主义”(hedonistic),即学习系统想最大化环境对自己的某种奖励。“享乐主义”这个说法源自他们的资助人克劳普夫1982年的一本书,书名即《享乐主义的神经元》(Hedonistic Neuron)。关于个体的策略和集体的行为之间的关系,道金斯有所谓“自私的基因”的说法,这和“享乐主义的神经元”异曲同工,两种说法都旨在为类生物(biology-inspired)系统建立基本公理。
作为空军项目的结项,巴托和萨顿联合撰写了报告(见Barto & Sutton-1981),在结项报告上签字的PI是斯宾尼利。此报告的题目“goal-seeking”就是“享乐主义”的意思,后来巴托和萨顿将这一概念称为“奖励假设”(Reward Hypothesis),也就是“奖励就够了”(Reward is enough)。
克劳普夫1997年56岁时英年早逝,他事实上也是强化学习的奠基者之一,如果现在还活着,今年图灵奖的名单上应该有他的名字。
SAIXIANSHENG
强化学习的本质
强化学习的理论基础之一是马尔可夫决策过程。强化学习的主体是Agent,Agent和环境互动。在一个时间点,环境的表示是当前的状态,Agent对环境实施一个动作,环境回馈给Agent一个奖励,并导致环境进入一个新状态。强化学习就是Agent根据经验改变策略以期达到长期最大奖励的过程。
强化学习
强化学习的另一个理论基础是动态规划。贝尔曼(Richard E. Bellman)在20世纪50年代就发明了动态规划。巴托一度在他的强化学习讨论班上让研究生分工研读贝尔曼的经典著作《动态规划》(Dynamic Programming)(Bellman,1957)。班上数学好的学生不知所云,算法课里不都有一章讲动态规划嘛,如果强化学习就是动态规划,那还有啥意思?近30年后,当强化学习被用来解决围棋这样复杂的问题之后,当年班上的学生们才体会到巴托的初衷。但“三十年太久,只争朝夕”,这几乎是一个人学术生涯的全部。当年的学生们也到了人生的强弩之末。愚公移山,现在是当时学生的孩子们的天下,他们赶上好时候了。
在早期算力有限的约束下,要想使强化学习有效,所应用的环境不宜太复杂。萌芽期的强化学习的例子都是游戏,如贝尔曼的“老虎机”(这成了所有强化学习的入门例子)和塞缪尔(Arthur Samuel)的跳棋。游戏的环境相对容易定义,在棋类比赛中,环境就是对手和规则。因此,强化学习被用来下围棋不是偶然的。
事实上,强化学习的思想在人工智能诞生之初便已出现。人工智能的一种起源,可以回溯到图灵1950年在Mind上的文章“计算机与智能”。而在更早的1948年,图灵就写过一篇内部报告“智能机器”,其中图灵定义了可学习的机器P–型机,它可以只接受“快乐”和“痛苦”刺激,这实际就是强化学习算法的“奖励”和“惩罚”。图灵指出人身上的任何小部件都可以用机器来模仿,他还提到基因、进化和选择。这个报告也是巴托和萨顿在其经典教材《Reinforcement Learning: An Introduction》中引用的唯一一篇图灵的文章。
强化学习中有所谓exploration (“抬头看路”,也译为“探索”)和exploitation (“低头拉车”,也有苦干,被剥削,被压榨之意)阶段之分。探索就是看看有没有别的选择,苦干就是专注于当前的选择。在强化学习中,用希腊字母ε表示学习率(learning rate),值越小,能用于探索的时间就越少,绝大部分时间是在苦干。就像人生,大部分时间被压榨,极少时间可以探索“诗和远方”。如果我们再套用弗里曼·戴森的“大鸟”和“青蛙”的比喻:“大鸟”是那些高瞻远瞩的科学家,例如希尔伯特、爱因斯坦、杨振宁等,而“青蛙”是那些埋头苦干解决问题的科学家,例如冯诺伊曼、费曼等。“大鸟”们负责探索,而“青蛙”们负责苦干。
有人论起遗传算法和强化学习的异同。首先它们有一个共同点:效果要等到多步以后才能看到,这是和监督式学习的主要不同。这需要尽可能多地访问所有的状态,这样效率就会受到影响。蒙特卡洛模拟是一种减少状态空间搜索的有效办法。最近也有人利用深度学习来压缩需要表示的状态空间数目。本来强化学习初衷是探索生物体学习的模型,现在神经网络又成了强化学习的工具。当状态空间很大时,强化学习可以和蒙特卡洛方法或深度神经网络结合。
我很早曾随意评论过:遗传算法是有性繁殖,而强化学习是无性繁殖。直到某一天我看到理论计算机科学家Livnat和Papadimitriou 2016年在CACM上的文章,证明了无性繁殖在特定条件下的效率要远高于有性繁殖,这个结果令我一惊,促使我思考:对算力要求的大小,也许可以解释为什么强化学习比遗传算法效率更高。道金斯的“自私”适合描述有性繁殖,而克劳普夫的“享乐主义(hedonist)”适合描述无性繁殖。
萨顿在麻省大学博士毕业后去了不远处的GTE实验室,GTE是当年贝尔系统之外最大的电话公司。贝尔有个实验室,GTE当然也得有。萨顿待在GTE实验室的主要原因是方便和巴托合作。巴托的“可适应系统”实验室,在神经网络不景气时,曾经收留过一批无家可归的学术“浪人”,其中就有吴恩达的老师乔丹。事实上,吴恩达的成名作就是用强化学习来控制无人机。巴托和萨顿定期互访。印象中,GTE实验室的办公和会议场所非常豪华。每次去GTE,都是巴托开着他那辆老旧的SAAB,载着几位学生一起当天往返。
为了和巴托合作写他们那本强化学习的经典教科书,萨顿一度回到母校担任“研究科学家”(一种没有编制的研究性职位)。之后,他前往加拿大阿尔伯塔大学(Alberta)计算机系,迅速把那里建成了强化学习的大本营。有意思的是,辛顿也差不多同时迁往加拿大多伦多大学,那恰是在神经网络研究刚刚复活但仍不太招人待见的时期。
谷歌收购DeepMind时,团队中最核心的几个人都是萨顿的学生,而自称“AlphaGo之手”的黄士杰也曾在萨顿手下做过两年博士后。2017年7月7日,DeepMind宣布在萨顿所在的阿尔伯塔大学开办联合实验室,这是DeepMind第一次在英国以外设立研究机构。经过多年耕耘,萨顿已经把阿尔伯塔大学建成了强化学习的基地,和计算机系里崇尚游戏的几个教授天作之合,使强化学习在围棋、德州扑克、电玩等领域势不可挡。但2022谷歌在一次内部调整中又撤销了对阿尔伯塔大学的支持。
一旦一个算法被天才发明,成功地在一个领域里得到应用,是算法重要性展示的必要条件。一旦一个算法被认定成功,自然会有二流人才前赴后继把这个算法在其他领域发扬光大。20世纪80年代的神经网络如此,当下的强化学习也如此。
目前已经看到这几派的融合,例如深度学习和强化学习的结合形成了深度强化学习,甚至还有人利用强化学习来做定理证明的工作。谷歌2017年用强化学习来寻求NP-hard问题的近似解。早年有人质疑遗传算法算不算机器学习,他们认为遗传算法是一种近似优化算法,不能算机器学习。但从某种意义上,任何机器学习算法都是一种优化算法。现在强化学习都被用来求解优化问题了。
SAIXIANSHENG
学习的第一性原理
我到麻省大学后,因为阿比卜已经决定不回麻省大学,导师第二选择就是巴托了。第一次和巴托见面,我带着在国内写好的一篇关于利用Hopfield网络近似求解TSP的文章给他看,他翻了翻文章,只说了一句:“嗷,好多数学啊”。我当时还颇自得,多年之后才知道巴托本科读的是数学,不禁汗颜。老实讲,初识强化学习时,我觉得这个东西离实用还远着呢。当时巴托有个学生Steve Judd刚毕业,他博士论文证明了三层以上机器学习是NP完全的。差不多同时,Ron Rivest(RSA的R)的团队中也有人证明了类似的结果,但Judd应是第一个。于是我的兴趣也转向我的优势:计算理论。菲尔茨奖得主、数学大家斯梅尔(Steve Smale)那时也转向计算理论,他与Lenore Blum(图灵奖Manuel Blum的太太)和Michael Shub在1989年提出了实数的BSS模型,其特色是计算性质不同于图灵机,因为BSS假设无限精度的实数的基本运算可以在单位时间内完成。我很快证明了BSS模型上有些神经网络学习问题等价于线性规划,而有些问题则可归约到TSP。有意思的是线性规划在图灵机上是多项式的,而在BSS上的性质至今未知。这些理论的东西,巴托本无兴趣,我只好找年轻的理论家Barrington审查我的结果。那时我对强化学习作为最通用的学习并没有深刻认识,甚至还有些抵触。
我重新哲学地审视强化学习大概是在2012年,那时开始写人工智能历史的系列文章。这些文章后来又整理成书《人工智能简史》。我很早就读过所罗门诺夫的工作,并且直觉强化学习大概是和所罗门诺夫类似或者等价的。我在写达特茅斯会议那一段历史时重新看了麦卡锡和香农合编的文集《自动机研究》(Automata Studies),其中麦卡锡的一篇关于图灵机求逆的文章使我豁然开朗,如果所罗门诺夫归纳是学习的第一性原理,那么强化学习至少可以看作是其实现方式之一。强化学习学不会的东西,所罗门诺夫归纳也没招。如果外部世界是完全随机的,那么强化学习也不管用。DeepMind成立时间不长就被谷歌收购(2014年),强化学习是他们的强项,2016年DeepMind下围棋战胜了李世石。那时我变成带着企业家面具的作家,早已丧失了学术所需的智力锋芒,但我知道强化学习的时代来了。
能够使自己信服(conviction,无论何种方式)所从事的事业是第一性原理需要各种机缘巧合。这种信服会让人坚持自己的事业。人工智能事业的例子有辛顿(Hinton)和他的学生苏茨克佛(Ilya Sutskever,OpenAI联合创始人),以及今天的巴托和萨顿。不入流的企业家喜欢给年轻人灌输“闭环”思维,就是能不能赚快钱。辛顿和苏茨克佛,巴托和萨顿都不闭环,他们按照第一性原理的信念一直走下去。
罗素(Stuart Russell)和诺维格(Peter Norvig)合著的那本权威且无所不包的人工智能大部头教科书《人工智能:一种现代方法》,全书由7篇组成,“强化学习”是“学习”篇里的最后一章;而“强化学习”也是周志华的《机器学习》的最后一章。这大概说明强化学习比较“新”,或者“火”得比较晚吧。就像动态规划是在找不到其他更有效算法的情况下,一种没办法的办法;强化学习是最广泛的学习算法。当目前我们面临人类数据将被用尽的情况下,大家把目光投向强化学习一点也不吃惊。萨顿一直认为强化学习是理解智能的关键。罗素和诺维格也说“可以认为强化学习包含了全部人工智能”(Reinforcement learning might be considered to encompass all of AI)。萨顿和弟子席尔瓦(David Silver)等在《Reward is Enough》一文中提出了一个核心观点:强化学习中的奖励机制足以驱动智能行为的产生,无需预设复杂的先验知识或特定目标。
人工智能领域派系纷杂,其历史是几条路线斗争的历史。就像美国心理学家威廉·詹姆斯把哲学体系简单地分为理性主义、经验主义和实用主义那样,我也把人工智能做了个三分法:逻辑主义(或规则派,对应哲学中的理性主义)、连接主义(或统计派,对应经验主义)和自然主义(自然派,对应实用主义)。我也曾把所罗门诺夫归纳对应于实用主义—实用主义是理性主义和经验主义的辩证法。直觉上,所罗门诺夫归纳和强化学习类似,如果我们能给出一个数学证明那就更令人放心了(见Hutter-2005)。
SAIXIANSHENG
总结
萨顿和弟子席尔瓦合作写了一篇题为“Welcome to the Era of Experience”的文章。他们把学习的发展分为三个阶段,首先是“模拟时代”,在一个封闭环境中,数据可由多个agents互相博弈而自动生成,其代表是AlphaZero;第二阶段是人类数据时代,代表是ChatGPT,但目前大语言模型已经几乎用尽了所有数据;第三阶段是“经验时代”,代表是AlphaProof,AlphaProof发现了人没有发现过的定理证明方法,经验时代迫使人们重新思考奖励函数和价值函数。
萨顿2019年的两页纸短文The Bitter Lesson是他几十年研究的哲学思考。他的结论是长期来看通用方法总可以战胜专用方法(所谓专用就是注入人类理解和知识的智能体(agent)),以通用算法(例如强化学习)为基础,辅以不断增长的算力,智能自然会提升。AlphaGO的成功使他认为强化学习可以作为达到超人类智能的路径。这个论断的基础是摩尔定律。正是基于萨顿的这篇短文,有了当下挂在工程师嘴边的所谓Scaling Law(缩放定律),即智能会随算力和数据不断加大地投入而自然增长。
巴托和萨顿的长期合作,在科学史上是罕见的。可能最接近的例子是司马贺和纽厄尔(Herb Simon,计算机科学家、经济学家、诺贝尔奖和图灵奖得主,Alan Newell,计算机科学家、图灵奖得主)。纽厄尔是司马贺的学生,他们年龄相差也不算大。萨顿曾说他和巴托的观点也不尽全同,但他们这种互相帮助且独立的关系是他们成功的秘方之一。他们是幸运的,在他们没有退出舞台时,他们的学生在学界和产业界开始活跃。相较之下,为大语言模型奠定理论基础的所罗门诺夫去世后,他的学问几成绝学。
我们从机器学习中学到的,还可以被用来理解和解释人的学习。Schultz, Dayan和Montague的工作证明灵长类动物多巴胺能神经元(dopaminergic neurons)就是在执行强化学习。近来,诺奖偏爱人工智能,辛顿和霍普菲尔德仗神经网络获得诺贝尔物理奖,而哈撒比斯等则凭强化学习在蛋白质折叠中的应用获得化学奖。我赌巴托和萨顿有希望得生理学或医学奖。
来源:东窗史谈一点号