摘要:叙述之所以重要,是因为它们最终会推动经济活动,如投资、研究重点、资金、地缘政治、贸易等。例如,在 2023-24 年,对新的 LLM 初创企业的投资约为 200 亿美元,而对新的 AGI 初创企业的投资仅为约 2 亿美元。
作者:Mike Knoop
我们还没有 AGI,而且创新仍然受到限制——扩大纯 LLM 预训练并不是出路,尽管截至去年夏天,这是 AI 行业的主流叙述和主流公众观点。
叙述之所以重要,是因为它们最终会推动经济活动,如投资、研究重点、资金、地缘政治、贸易等。例如,在 2023-24 年,对新的 LLM 初创企业的投资约为 200 亿美元,而对新的 AGI 初创企业的投资仅为约 2 亿美元。
我们于去年 6 月启动了 ARC Prize 2024,以提高人们对 LLM 扩展极限的认识,并推动有用的基准 ARC-AGI-1 朝着新的方向发展,即要求 AI 系统能够适应新的、看不见的问题,而不是严格依赖记忆。
DeepSeek R1 架构由@SirrahChan提供。
上周,DeepSeek发布了其新的 R1-Zero 和 R1 “推理机”系统,该系统在 ARC-AGI-1 上可与 OpenAI 的 o1 系统相媲美GPT-4o。R1-Zero、R1 和 o1(低计算)得分都在 15-20% 左右,而 5% 的得分是纯 LLM 扩展多年来的最高水平。根据本周美国市场的反应,公众也开始了解纯 LLM 扩展的极限。然而,公众对即将到来的推理需求仍然普遍缺乏了解。
2024 年 12 月,OpenAI 宣布了我们验证的突破性新 o3 系统。它在低计算模式下得分为 76%,在高计算模式下得分为 88%。o3 系统展示了计算机适应新奇问题的首个实用、通用实现。
尽管o3 击败 ARC-AGI-1是重大科技新闻,但主流媒体却基本上没有注意到和报道。
这对于人工智能领域和计算机科学来说是一个极其重要的时刻,这些系统需要研究。但由于 o1/o3 的封闭性,我们不得不依赖推测。得益于 ARC-AGI-1 以及现在(几乎)开源的 R1-Zero 和 R1,我们可以加深理解。特别是,R1-Zero 比 R1 重要得多。
“几乎”是因为 DeepSeek 没有发布一种可重复的方法来从头开始生成模型权重
在我们的o1和o3 分析中,我们推测了这些推理系统是如何工作的。关键思想如下:
为问题域生成思路链 (CoT)。使用人类专家(“监督微调”或 SFT)和自动化机器(“强化学习”或 RL)的组合来标记中间 CoT 步骤。使用(2)训练基础模型。在测试时,从过程模型进行迭代推理。系统ARC-AGI-1方法平均代币平均成本r1-零14%无 SFT/无搜索11千$.11r115.8%SFT/无搜索6千$.06o1(低)20.5%SFT/无搜索7千$.43o1(中)31%SFT/无搜索13千$.79o1(高)35%SFT/无搜索2.2万1.31 美元o3(低)75.7%SFT/搜索+采样33.5万20美元o3(高)87.5%SFT/搜索+采样5700 万3.4 千美元注:显示 ARC-AGI-1 半私人分数。
借助 DeepSeek 最新发表的研究,我们可以更好地进行推测。关键见解是,LLM 推理系统更高程度的新颖性适应性(和可靠性)是通过三个维度实现的:
将人工标签(又称 SFT)添加到 CoT 流程模型训练中CoT 搜索代替线性推理(并行每步 CoT 推理)整个 CoT 采样(平行轨迹推断)第 (1) 项的瓶颈在于人类数据生成,并限制了这些推理系统最受益的领域。例如,MMLU 专业法律类别的得分出奇地低于 o1 上的数学和逻辑。
第 (2) 和 (3) 项受到效率的限制。o1 和 o3在 ARC-AGI-1 上的基准测试准确率均呈对数提升,因为它们在测试时花费了更多的推理计算,而花费该计算的不同方式会调整曲线的 x 轴。
我认为 DeepSeek 最有趣的事情是单独发布 R1-Zero。R1-Zero 是一个不使用 SFT((1) 项)的模型。相反,它完全依赖于强化学习。
R1-Zero 和 R1 在 ARC-AGI-1 上的得分表现出很强的一致性,分别为 14% 和 15%。DeepSeeks 自己报告的基准测试得分也显示出 R1-Zero 和 R1 之间的高度一致性,例如,在 MATH AIME 2024 上的得分分别为 71% 和 76%(高于基础 DeepSeek V3 上的约 40%)。
在论文中,R1-Zero 的作者表示“DeepSeek-R1-Zero 遇到了诸如可读性差和语言混合等挑战”,并且已在网上得到证实。然而,在我们的测试中,我们在 ARC-AGI-1 上测试 R1-Zero 时几乎没有发现不连贯的证据,这与系统在 RL 上进行的数学和编码领域类似。
综合起来,这些研究结果表明:
在具有强验证的领域中,SFT(例如人类专家标记)对于准确且清晰的 CoT 推理不是必需的。R1-Zero 训练过程能够通过 RL 优化在标记空间中创建自己的内部领域特定语言(“DSL”)。SFT 对于提高 CoT 推理领域的通用性是必要的。这很直观,因为语言本身实际上是一种推理 DSL。完全相同的“单词”可以在一个领域中学习并应用于另一个领域,就像一个程序一样。纯 RL 方法还无法发现广泛的共享词汇,我预计这将成为未来研究的重点。
最终,R1-Zero 展示了一种潜在的扩展方案的原型,该方案不存在任何人类瓶颈——甚至在训练数据获取本身中也是如此。
几乎可以肯定,DeepSeek 已经将目光瞄准了 OpenAI 的 o3 系统。重要的是要观察 SFT 最终是否成为添加 CoT 搜索和采样的必要条件,或者假设的“R2-Zero”是否可以沿着相同的对数精度与推理缩放曲线存在。根据 R1-Zero 的结果,我相信在这个假设的扩展版本中,SFT 不需要击败 ARC-AGI-1。
从经济角度来看,人工智能正在发生两大转变:
您现在可以花更多的钱来获得更高的准确性和可靠性训练资金正在转向推理资金两者都将推动对推理的大量需求,而且都不会减少对更多计算的需求。事实上,它们将增加对计算的需求。
人工智能推理系统承诺的回报远不止简单的基准测试中更高的准确度。阻碍更多人工智能自动化应用(例如推理需求)的首要问题是可靠性。我与数百名试图在其业务中部署人工智能代理的 Zapier 客户进行了交谈,他们的反馈非常一致:“我还不信任它们,因为它们的工作不可靠”。
之前我曾指出,ARC-AGI 的发展将带来更高的可靠性。LLM 代理面临的挑战是,它们需要强大的本地域控制才能可靠地工作。更强的泛化能力需要能够适应未知情况。我们现在开始看到证据表明这种观点是正确的。因此,毫不奇怪,现在有几家公司正在引入代理(Anthropic、OpenAI、Apple 等)
由于可靠性需求,代理将推动近期需求推断的大幅增长。更广泛地说,开发人员可以选择投入更多计算来提高用户对系统的信任度。然而,更高的可靠性并不意味着 100% 的准确性——但你会期望更一致的不准确性。这没关系,因为当准确度较低时,用户和开发人员现在可以更自信地通过提示来引导行为。
以前计算机无法解决的问题现在需要花费大量金钱。随着效率的提高,这些金钱将会减少。
另一个重大转变是进入 LLM 系统进行预训练的数据来源。以前,大多数数据都是从现有 LLM 购买、抓取或合成生成的(例如提炼或扩充)。
这些推理系统提供了一种新选择,即生成“真实”数据,而不是“合成”数据。人工智能行业使用合成一词来指代低质量数据,这些数据通常通过 LLM 回收,以增加训练数据的总量,但收益却在递减。
但现在有了推理系统和验证器,我们可以创建全新的合法数据进行训练。这既可以离线完成,开发人员付费创建数据,也可以在推理时完成,最终用户付费!
这是经济学中一个令人着迷的转变,表明拥有最多付费客户的人工智能系统开发商可能会出现权力集中的失控时刻。这些客户正在为创建新的高质量数据买单……这改进了模型……模型变得更好,更受用户青睐……你明白了。
如果我们能够突破人类专家 CoT 障碍,创建一个非常高效的系统,通过搜索/合成和验证来创建新数据,那么我们应该可以预期,这些推理系统将大量投入计算,因为它们实际上只需投入资金和原始数据就能变得更好。最终,这种类型的 AI 训练将完全取代对人类生成的数据的预训练。
随着推理需求的增加,我们将继续看到市场调整。人工智能系统效率只会推动更多的使用,这不仅是因为杰文斯悖论,还因为随着效率的提高,新的训练机制将被解锁。
随着 R1 的开放性和可复制性,更多的人和团队将把 CoT 和搜索推向极限。这将更快地告诉我们前沿实际上在哪里,并将推动一波创新浪潮,从而增加快速实现 AGI 的机会。
已经有几个人告诉我,他们计划在2025 年 ARC 奖中使用 R1 风格的系统,我很高兴看到结果。
R1 开放对世界来说是一件大事。DeepSeek 推动了科学的前沿发展。
来源:人工智能学家