摘要:知名技术播客《Dwarkesh Podcast》在9月26日发布了一期视频,《大模型是死胡同》(LLMs are a dead end)。采访嘉宾是2024年图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton)。
知名技术播客《Dwarkesh Podcast》在9月26日发布了一期视频,《大模型是死胡同》(LLMs are a dead end)。采访嘉宾是2024年图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton)。
理查德·萨顿可以说重塑了人工智能领域,不仅构建了理论基础,提出了一系列算法,还在思想层面提出了一个深远洞见。后面我们会讨论这一点。
那么,理查德·萨顿这一观点究竟是什么,我们又该如何看待呢?
理查德·萨顿(Richard Sutton)
在理查德·萨顿看来,大模型存在以下明显缺点:
1.缺乏真实的世界模型
大模型目前的设计,是用人类的知识库,模仿人类的语言,不断预测下一个生成的词汇。但大模型并没有并不会理解世界运行的本质,他不懂得环境存在的真相。大模型就像一个演员,按照剧本演出既定的故事情节,却并不知道真实的前因后果。
2.没有目标
大模型并不存在一个目标,他的反应逻辑就是当用户发起提问后,提供一个符合逻辑的完整答复。而产生智能的自然进化过程,却是在以“生存”为第一目标的条件后,最大可能延续自己的基因,繁育下一代。在自然选择强大力量下,最终产生了人类这个强大智能体。
3.无法从经验中学习
大模型同样无法从已有的回答中学习,一旦训练完成,他便固定下来,不会像人类那样不断调整、优化、更新自己的知识,更不可能从环境中得到反馈,进而不断更新自己的认知。大模型要一直依赖人类提供训练框架和指示,反复进行训练。
在理查德·萨顿看来,大模型还不是通用人工智能的完整拼图,或者仅仅只是通用人工智能的组成部分。他认为,真正的智能应该像人类婴儿或动物学习一样,通过与环境的直接交互来获取知识。
真正的智能应该具备几个基本模块,感知、行动、奖励。智能体通过不断尝试、观察结果、并根据奖励信号调整行为,从而学会如何在这个世界上达成目标。强化学习正是这一范式的体现。
理查德·萨顿2019年发表的《苦涩的教训》(The Bitter Lesson)一文,其思想洞见是,人工智能研究70年历史中,最大的教训是那些能充分利用计算能力的通用方法,如搜索和学习,长远来看总会以巨大优势战胜依赖人类特定领域知识精心设计的复杂方法。
这个观点常被用来为大模型的不断扩展算力、堆数据辩护。但萨顿本人澄清,这篇文章的精髓并非“算力至上”,而是指出依靠通用方法并利用计算规模的方法,长期来看会胜过那些依赖人类精心设计的知识的方法。
大模型虽然在利用计算规模,但其成功在很大程度上仍依赖于“人类几千年沉淀下来的文本”这一巨大的人类知识库,这恰恰与“苦涩的教训”的精神相悖。真正可扩展的,是那些能从自身经验中直接学习的方法。
理查德·萨顿的观点在于,他为利用语言大模型通向通用人工智能泼了一盆冷水,更是明确认为通用人工智能可能需要更为完整的设计拼图,语言大模型也许只是其中一环。近期有越来越多的观点认为我们距离通用人工智能还很遥远,广泛取代普通人的AI技术还是在有限的发展着。
但就目前大模型的能力,已经可以大幅提高所有工作环节的工作效率,每个职场人面对AI技术,只有不断尝试,不断学习,完全应用在工作中这一个选项。
而通用大模型的发展也不会因此止步,今后大模型与机器人的完整结合,会产生怎样的影响,令人期待。
来源:正豪教育