摘要:奥特曼罕见地承认了自己犯下的「历史错误」,LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪?圈内热转的这篇分析指出,相比R1,R1-Zero具有更重要的研究价值,因为它打破了终极的人类输入瓶颈!
【新智元导读】 奥特曼罕见地承认了自己犯下的「历史错误」,LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪?圈内热转的这篇分析指出,相比R1,R1-Zero具有更重要的研究价值,因为它打破了终极的人类输入瓶颈!
DeepSeek再度创造历史。
居然能逼得OpenAI CEO奥特曼承认:「我们在开源/开放权重AI模型方面,一直站在了历史的错误一边。」
LeCun也发文指出,硅谷圈子的常见病,就是一种错位的优越感。
高级阶段的症状,是认为小圈子就能垄断好的想法。而晚期症状就是,假设来自他人的创新都是靠作弊。
DeepSeek的最大意义在哪里?
ARC Prize联合创始人Mike Knoop发出长文中总结道——R1-Zero打破了最终的人类输入瓶颈——专家CoT标注!其中一个例子,就是监督微调(SFT)。
从R1-Zero到AGI,一切都与效率有关。
另一个值得注意的观点就是:相比R1,R1-Zero具有更重要的研究价值。
这是因为,R1-Zero完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT)。
这就表明,在某些领域,SFT并非实现准确清晰CoT的必要条件,完全有可能让AI通过纯粹的RL方法实现广泛推理能力。
以下为Mike Knoop的完整分析。
从此,推理计算需求激增
上周,DeepSeek发布了他们新的R1-Zero和R1「推理」系统,在ARC-AGI-1基准测试上的表现可与OpenAI的o1系统相媲美。R1-Zero、R1和o1(低算力模式)都取得了15-20%的得分,而GPT-4o仅为5%——而这已是多年纯LLM scaling的巅峰成果。
根据本周美国市场的反应,公众也开始理解了纯LLM scaling的局限性。
然而,大多数人仍没有意识到推理计算需求即将激增的问题。
2024年12月,OpenAI发布了一个新的突破性系统o3,经过验证,该系统在低算力模式下得分76%,高算力模式下得分88%。
o3系统首次展示了计算机在面对全新、未知问题时进行适应的通用能力。
尽管o3在ARC-AGI-1基准测试中取得了突破性的成绩,但这一科技大事件却在主流媒体中几乎未被报道,也未引起广泛关注。
这是AI和计算机科学领域的一个极其重要的时刻,这些系统值得深入研究。
然而,由于o1和o3是闭源的,我们只能依靠推测进行分析。
幸运的是,借助ARC-AGI-1,以及现在(几乎)开源的R1-Zero和R1,我们能够进一步加深对这一领域的理解。
这里的「几乎」指的是,DeepSeek并未公布从零开始复现其模型权重的方法。
特别值得注意的是,相比R1,R1-Zero具有更重要的研究价值。
R1-Zero比R1更值得分析:它消除了人为瓶颈
在对o1和o3的分析中,ARC Prize团队对这些推理系统的工作原理进行了推测。它们的关键思路如下:
为特定问题领域生成思维链(CoT)。 使用人工专家(「监督微调」SFT)和自动化机器(「强化学习」RL)的组合对中间的CoT步骤进行标注。 利用(2)中标注的数据训练基础模型。 在测试时,模型会基于这一推理过程进行迭代推理。 下图回顾了用于各模型用于迭代采样的技术,及其在ARC-AGI-1评分的相关情况。用更多资金,换取AI的可靠性
从经济角度来看,AI领域正在发生两大重要变化:
投入更多资金,以获得更高的准确性和可靠性。 训练成本正在向推理成本转移。 这两点都将极大地推动推理计算的需求,同时也不会抑制对更强计算资源的需求,反而会进一步增加计算需求。 AI 推理系统的价值,远不止于提高基准测试中的准确率。 当前阻碍AI更广泛自动化应用(即推理需求)的首要问题,就是可靠性。 ARC Prize团队曾与数百位试图在业务中部署AI智能体的Zapier客户交流过,他们的反馈高度一致:「我还不信任它们,因为它们的工作表现不够稳定。」 以前,ARC Prize曾提出,朝着ARC-AGI方向的进展将提升AI可靠性。 LLM智能体的主要挑战在于,它们需要强有力的本地领域控制才能稳定运行。 而更强的泛化能力,要求AI能够适应全新的、未见过的情况。如今,已有证据表明这一观点是正确的。 因此,Anthropic、OpenAI、Apple等多家公司纷纷推出AI智能体也不足为奇。推理即训练:AI数据获取范式或将永久转变
另一个正在发生的重要变化,是用于LLM预训练的数据来源。
过去,大多数训练数据要么是购买的,要么是从网络爬取的,要么是由现有的LLM合成生成(例如蒸馏或数据增强)。 但推理系统提供了一种全新的选择——生成「真实」数据,而非传统意义上的「合成」数据。 AI行业通常将「合成数据」视为质量较低的数据,这些数据通常是通过LLM循环生成的,仅仅是为了增加训练数据的总体规模,但其收益会逐渐递减。 如今,借助推理系统和验证器,我们可以创造全新的、有效的数据来进行训练。这可以通过两种方式实现: 离线生成 ——开发者支付费用来创建数据。 推理时生成 ——终端用户支付费用来创建数据。 这是一种引人注目的经济模式转变,可能会导致AI系统开发者之间出现「赢家通吃」的局面。 拥有最多付费用户的AI公司将拥有巨大的数据垄断优势,因为这些用户在无形中资助了新高质量数据的创建,而这些数据反过来又进一步提升模型能力,使其更受用户青睐……由此形成一个自增强的良性循环。 如果我们能够突破人类专家CoT标注的瓶颈,并构建一个极高效的搜索/合成+验证系统来自动生成新数据,那么可以预见,未来将会有大量计算资源投入到这些推理系统中。 因为这些系统的训练效果将直接与资金投入和数据输入量挂钩,也就是说,只要投入资金和原始数据,模型就会变得更强。 最终,这种AI训练模式将彻底取代基于人类生成数据的预训练方法。结论:DeepSeek推动全世界科学发展
随着推理需求的增长变得更加明确,市场将继续经历调整。
AI 系统的效率提升不仅会推动更多的应用,这不仅符合杰文斯悖论,更重要的是,更高的计算效率解锁了全新的训练范式。来源:东窗史谈