摘要:1947年,艾伦·图灵在一场演讲中提出了“我们希望拥有一台能够从经验中学习的机器”的愿景。78年后,图灵奖这一被誉为计算机界的诺贝尔奖,表彰了两位毕生致力于实现这一愿景的科学家:安德鲁·巴托和理查德·萨顿。这两位相差九岁的师徒不仅奠定了AlphaGo和Chat
重塑人工智能的未来
1947年,艾伦·图灵在一场演讲中提出了“我们希望拥有一台能够从经验中学习的机器”的愿景。78年后,图灵奖这一被誉为计算机界的诺贝尔奖,表彰了两位毕生致力于实现这一愿景的科学家:安德鲁·巴托和理查德·萨顿。这两位相差九岁的师徒不仅奠定了AlphaGo和ChatGPT的技术基石,更是机器学习领域的先锋。
图灵奖得主安德鲁·巴托与理查德·萨顿|图片来源:图灵奖官网
谷歌首席科学家杰夫·迪恩在颁奖词中提到:“巴托和萨顿开创的强化学习技术,直接回应了图灵的问题。他们的工作在过去几十年中成为了AI进步的关键。这些工具依然是AI繁荣的核心支柱……谷歌很荣幸赞助ACM A.M.图灵奖。”
图灵奖100万美元的奖金唯一赞助方正是谷歌。
在获奖后,两位科学家站在聚光灯下,对AI大公司提出了批评:“现在的AI公司在‘受到商业激励’而非专注于技术研究,他们正在社会上‘架起一座未经测试的桥梁,让人们过桥来测试’。”
巧合的是,图灵奖上次颁发给人工智能领域的科学家是在2018年,约书亚·本希奥、杰弗里·辛顿和杨立昆因在深度学习领域的贡献而获奖。其中,约书亚·本希奥和杰弗里·辛顿(同时也是2024年诺贝尔物理学奖的获奖者)在过去两年的AI浪潮中,也多次呼吁全球社会和科学界警惕大公司对人工智能的滥用。
杰弗里·辛顿更是直接辞去了谷歌的工作,以便“畅所欲言”。他曾在2017年至2023年担任DeepMind的研究科学家。
当计算机界的最高荣誉一次次授予给AI核心技术的奠基者们时,一个耐人寻味的现象逐渐浮现:为何这些站在巅峰的科学家,总会在聚光灯下敲响AI的警钟?
人工智能的“造桥者”
如果说艾伦·图灵是人工智能的引路人,那么安德鲁·巴托和理查德·萨顿则是这条道路上的“造桥者”。
在人工智能飞速发展的时代,在他们获得荣誉之后,他们开始重新审视自己搭建的桥梁,是否能够承载人类安全通行?
或许答案隐藏在他们跨越半个世纪的学术生涯中——只有回溯他们如何构建了“机器的学习”,才能理解他们为何警惕“技术的失控”。
图片来源:卡耐基梅隆大学
1950年,艾伦·图灵在其著名论文《计算机器与智能》中提出了一个哲学和技术问题:“机器能思考吗?”随后,图灵设计出了“模仿游戏”,即后来广为人知的“图灵测试”。
图灵提出,机器智能可以通过学习获得,而不仅仅是依赖预先编程。他构想了“儿童机器”的概念,即通过训练和经验,让机器像孩子一样逐步学习。
人工智能的核心目标是构建出能够感知并采取更好行动的智能体,而衡量智能的标准在于智能体能否判断某些行动比其他行动更好。
机器学习的目的就在于此,给予机器行动后的反馈,并让机器在反馈经验中自主学习。简而言之,图灵构思出基于奖励和惩罚的机器学习方法,这与巴甫洛夫训练狗的方法不谋而合。
我在游戏中越玩越败越强,也是一种“强化学习”|图片来源:zequance.ai
由图灵引出的机器学习之路,在三十年后,由一对师徒建起了这座桥——强化学习(Reinforcement Learning,RL)。
1977年,安德鲁·巴托受到心理学和神经科学的启发,开始探索一种新的人类智能理论:神经元就像“享乐主义者”,人类大脑内的数十亿个神经元细胞,每个都试图最大化快乐(奖励)并最小化痛苦(惩罚)。这些神经元并非机械地接收和传递信号,如果某个神经元的活动模式导致了正反馈,它就会倾向于重复这个模式,从而共同驱动了人类的学习过程。
1980年代,巴托带着他的博士生理查德·萨顿,想将这种“不断尝试、根据反馈调整连接,找到最优行为模式”的神经元理论应用于人工智能,强化学习因此诞生。
《强化学习:导论》成为经典教材,已被引用近80000次|图片来源:IEEE
师徒二人利用马尔可夫决策过程的数学基础,开发并编写了许多强化学习的核心算法,系统地构建出了强化学习的理论框架,还编写了《强化学习:导论》教科书,让数万名研究人员得以进入强化学习领域,二者堪称强化学习之父。
他们研究强化学习的目的是为了探寻高效准确、回报最大化、行动最佳的机器学习方法。
强化学习的“神之一手”
如果说机器学习是“填鸭式”学习,那么强化学习就是“放养式”学习。
传统的机器学习,就是给模型喂大量标注好的数据,建立输入和输出之间固定的映射关系。最经典的场景就是给电脑看一堆猫和狗的照片,告诉它哪张是猫、哪张是狗,只要投喂足够多的图,电脑就能辨认出猫狗。
而强化学习则是在没有明确指导的情况下,机器通过不断试错和奖惩机制,逐渐调整行为来优化结果。就像一个机器人学走路,不需要人类一直告诉它“这步对,那步错”,它只需尝试、摔倒、调整,最终自己就会走路了,甚至走出自己独特的步态。
显而易见,强化学习的原理更接近人类的智能,就像每个幼童在跌倒中学会走路,在摸索中学会抓取,在咿呀中捕捉音节,学会语言。
爆火的“回旋踢机器人”背后也是强化学习的训练|图片来源:宇树科技
强化学习的“高光时刻”正是2016年AlphaGo的“神之一手”。当时AlphaGo在与李世石的比赛中,第37手落下了一步令所有人类惊讶的白棋,一步棋逆转败势,一举赢下了李世石。
围棋界的顶级高手和解说员们,都没有预料到AlphaGo会在该位置落子,因为在人类棋手的经验里,这步棋显得“莫名其妙”。赛后李世石也承认,自己完全没有考虑过这个走法。
AlphaGo不是靠背棋谱背出来的“神之一手”,而是在无数次自我对弈中,试错、长远规划、优化策略后自主探索出来的。这正是强化学习的本质。
被AlphaGo“神之一手”打乱节奏的李世石|图片来源:AP
强化学习甚至反过来影响人类智能。AlphaGo露出“神之一手”后,棋手开始学习和研究AI下围棋的走法。科学家们也在利用强化学习的算法和原理,试图理解人类大脑的学习机制。巴托和萨顿的研究成果之一,即建立了一种计算模型,解释多巴胺在人类决策和学习中的作用。
此外,强化学习特别擅长处理规则复杂、状态多变的环境,并在其中找到最优解,比如围棋、自动驾驶、机器人控制以及与语焉不详的人类谈笑风生。
这些正是当下最前沿、最热门的AI应用领域,尤其是在大语言模型上,几乎所有领先的模型都使用了RLHF(从人类反馈中强化学习)的训练方法,即让人类对模型的回答进行评分,模型根据反馈改进。
但这也是巴托的担忧所在:大公司建好桥后,用让人们在桥上来回走的方法,来测试桥的安全性。
“在没有任何保障措施的情况下,把软件直接推给数百万用户,并不是负责任的做法。”巴托在获奖后的采访中说道。
“技术的发展本应伴随着对潜在负面影响的控制和规避,但我并没有看到这些AI公司真正做到这一点。”他补充道。
资本与技术的悖论
AI威胁论层出不穷,因为科学家最害怕亲手缔造的未来失控。
巴托和萨顿的“获奖感言”中,并无对当前AI技术的苛责,而是充斥着对AI公司的不满。他们在采访中警告,目前人工智能的发展,是靠大公司争相推出功能强大但容易犯错的模型,他们借此筹集了大量资金,再继续投入数十亿美元,展开芯片和数据的军备竞赛。
的确如此,根据德意志银行的研究,当前科技巨头在AI领域的总投资约为3400亿美元,这一规模已经超过希腊的年度GDP。行业领头羊OpenAI,公司估值达到2600亿美元,正准备展开新一轮400亿美元的新融资。
实际上,许多AI专家都和巴托、萨顿的观点不谋而合。此前,微软前高管史蒂芬·辛诺夫斯基就曾表示,AI行业陷入了规模化的困境,靠烧钱换技术进步,这不符合技术发展史中成本逐渐下降而不是上升的趋势。
就在3月7日,前谷歌CEO埃里克·施密特、Scale AI创始人Alex Wang、AI安全中心主任丹·亨德里克斯三人联名发表了一篇警示性论文。三位科技圈顶流认为,如今人工智能前沿领域的发展形势,与催生曼哈顿计划的核武器竞赛相似,AI公司都在悄悄进行自己的“曼哈顿计划”,过去近十年里,他们对AI的投资每年都在翻倍,如不再介入监管,AI可能成为自核弹以来最不稳定的技术。
《超级智能战略》及合著者|图片来源:nationalsecurity.ai
因深度学习在2019年获得图灵奖的约书亚·本希奥,也在博客中发长文警告,如今AI产业有数万亿美元的价值供资本追逐和抢夺,还有着足以严重破坏当前世界秩序的影响力。
诸多技术出身的科技人士认为,如今的AI行业已经偏离了对技术的钻研,对智能的审视,对科技滥用的警惕,而走向了一种砸钱堆芯片的大资本逐利模式。
“建起庞大的数据中心,收用户的钱还让他们用不一定安全的软件,这不是我认同的动机。”巴托在获奖后的采访中说道。
由30个国家、75位AI专家共撰的第一版《先进人工智能安全国际科学报告》中写道,“管理通用人工智能风险的方法往往基于这样一种假设:人工智能开发者和政策制定者,可以正确评估AGI模型和系统的能力和潜在影响。但是,对AGI的内部运作、能力和社会影响,科学理解其实非常有限。”
约书亚·本希奥的警示长文|图片来源:Yoshua Bengio
不难看出,如今的“AI威胁论”,已经把矛头从技术转向了大公司。专家们在警告大公司:你们烧钱,堆料,卷参数,但你们真正了解你们开发的产品吗?
这亦是巴托和萨顿借用“造桥”比喻的由来,因为科技属于全人类,但资本只属于大公司。
何况巴托和萨顿一直以来的研究领域:强化学习。它的原理更贴合人类智能,且具有“黑箱”特色,尤其是在深度强化学习中,AI行为模式会变得复杂且难以解释。
这也是人类科学家的担忧所在:助力和见证了人工智能的成长,却难以解读它的意图。
而开创了深度学习和强化学习技术的图灵奖获奖者们,并非在担心AGI(通用人工智能)的发展,而是在担心大公司之间的军备竞赛,在AGI领域造成了“智能爆炸”,一不小心制造出了ASI(超级人工智能)。两者的分野不仅是技术问题,更关乎人类文明的未来命运。
超越人类智能的ASI,掌握的信息量、决策速度、自我进化的水平,将远超人类的理解范围,如果不对ASI进行极为谨慎的设计和治理,它可能成为人类历史上最后一个,也是最无法抗衡的技术奇点。
在AI狂热的当下,这些科学家或许是最早“泼冷水”的人。毕竟五十年前,在电脑还是庞然大物时,他们就已经开启了人工智能领域的研究,他们从过去塑造了当下,也有立场去质疑未来。
AI领导者会迎来奥本海默式的结局吗?|图片来源:经济学人
在2月《经济学人》的采访里,DeepMind和Anthropic的CEO表示:
会因担心自己成为下一个奥本海默,而彻夜难眠。
来源:兔兔科技