摘要:超级智能(Superintelligence)是处于 AGI 之上、甚至通用能力超过人类的更高维 AI 发展方向。扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后,便暴露了 Meta 等头部玩家追求“超级智能”的巨大野心。那么,超级智能将如何
超级智能(Superintelligence)是处于 AGI 之上、甚至通用能力超过人类的更高维 AI 发展方向。扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后,便暴露了 Meta 等头部玩家追求“超级智能”的巨大野心。那么,超级智能将如何实现?现有大语言模型(LLM)的研究路径是否正确?Scaling Laws 能够在这一过程中继续奏效?早在 2023 年,OpenAI 首席执行官 Sam Altman 便表示,构建 AGI 是一个科学问题,而构建超级智能却是一个工程问题。这似乎暗示了他们知道构建超级智能的可行路径。然而,在 Meta AI 研究员 Jack Morris 看来,Altman 提到超级智能的“工程问题”,在于“构建大量适用于不同任务的 RL 环境,并训练 LLM 同时处理所有这些任务”。他认为,这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。“我谦卑的预测是:LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的 LLM。但它不会成为一个单一的超级智能模型。”Morris 在一篇题为“Superintelligence, from First Principles”的博客中,探讨了构建超级智能的 3 种可能方式:完全由监督学习(SL)、来自人类验证者的强化学习(RL)、来自自动验证器的 RL。此外,他还认为,将非文本数据整合到模型中并不能带来模型整体性能的提升,“由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。”学术头条在不改变原文大意的情况下,对整体内容做了精编,如下:
图|在o1博客文章中,OpenAI介绍了一系列“推理模型”,这些模型通过RLVR进行学习观察上方的美丽图表(注意对数x轴!),我们可以看到o1的确随着思考时间的增加而表现更好。但请注意标题:这是在AIME数据集上的结果——AIME是一组极为困难、答案为整数的数学题。换言之,这不是开放式任务,而是可验证的任务,因为我们可以检查LLM是否生成正确答案,并据此奖励模型。事实证明,当前的LLM在预训练后能够很好地处理任意任务,它们可以对AIME问题做出合理的猜测,而我们可以利用RL来训练它们,使其随着时间的推移做出越来越好的猜测。(最酷的部分,我们在此不做展开,是它们在这一过程中会生成越来越多的“思考token”,从而为我们提供如上文o1博客文章中所示的测试时计算图。)5.RLVR是通向超级智能的路径?显然,OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋,并认为这可能为他们带来超级智能。我认为,这种范式正是Altman在文章最前面模糊推文中提到的内容。超级智能的“工程问题”在于构建大量适用于不同任务的RL环境,并训练LLM同时处理所有这些任务。让我们来分析一下这种乐观的设想。我们已知的可验证任务包括编程(可以通过运行代码来验证其正确性)以及数学(不是证明,而是有数值解的问题)。如果我们能够收集世界上所有可验证的事物,并同时对它们进行训练(或分别训练,然后进行模型合并)——这真的会产生通用超级智能吗?这里存在几个逻辑跳跃。最重要的是,我们并不清楚RL在可验证任务上的迁移能力是否能够有效扩展到其他领域。训练模型解决数学问题是否能够自然地教会它如何预订机票?或者,在可验证环境中训练模型提升编程能力,是否能使其成为更优秀的软件工程师?假设这种情况确实成立,且RL能够完美迁移到各种任务上。这将产生巨大影响。人工智能公司将展开军备竞赛,争夺训练LLM的最丰富、实用且工程设计精良的任务集。很可能,有多家公司以这种方式推出“超级智能LLM”。但这种结果在我看来似乎不太可能。我猜如果RL确实能够极好地迁移到其他领域,那我们现在应该已经知道了。我谦卑的预测是:LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型。整理:小羊 编审:学术君原标题:《OpenAI路线遭质疑!Meta研究员:根本无法构建超级智能》 来源:阿新科学在线
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!