摘要:今年6月初,苹果公司发布了一篇具有重大影响力的论文《思考的幻象:从问题复杂性角度理解推理模型的局限性》。该论文深入研究了大型推理模型(LRMs)的推理能力,包括Claude 3.7 Sonnet Thinking、Gemini Thinking、DeepSee
尽管投入了数十亿资金,大型推理模型仍表现不佳
今年6月初,苹果公司发布了一篇具有重大影响力的论文《思考的幻象:从问题复杂性角度理解推理模型的局限性》。该论文深入研究了大型推理模型(LRMs)的推理能力,包括Claude 3.7 Sonnet Thinking、Gemini Thinking、DeepSeek-R1和OpenAI的o系列模型——特别是它们在面对问题复杂性增加时的思维方式。
研究界对此进行了深入分析,反响迅速。尽管生成式AI的采用率不断提高,并且人们普遍认为AI将大规模替代任务和工作,但这些大型推理模型的表现却令人失望。
从定义上来说,大型推理模型(LRMs)是专注于逐步思考的大语言模型。这被称为思维链(CoT),通过引导模型阐述推理步骤来促进问题解决。
《二阶思考者》的作者、研究员荆湖剖析了论文的发现,她指出"AI只是复杂的模式匹配,没有思考,没有推理",并且"AI只能在一定复杂程度内准确完成任务"。
作为研究的一部分,研究人员为跳棋、过河、汉诺塔等游戏创建了一个封闭的谜题环境,模拟不同复杂性条件。谜题分为三个复杂性阶段,从最简单到高复杂性。在所有三个阶段的模型性能中,论文得出结论:
在"低复杂性"阶段,常规模型的表现优于大型推理模型。荆湖解释说:"推理模型过度思考了——写了数千个单词,探索不必要的路径,对正确答案产生怀疑,使事情变得比应该的更复杂。"在汉诺塔游戏中,人类可以在七步内解决谜题,而Claude-3.7 Sonnet Thinking"使用的Token比常规版本多10倍,但准确性相同……这就像开火箭去街角商店一样"。
在"中等复杂性"阶段,大型推理模型优于大语言模型,显示出思维链推理的痕迹。荆湖认为,大型推理模型倾向于先探索错误答案,然后最终找到正确答案,但她认为"这些思维模型使用的计算能力是10-50倍(15,000-20,000个Token对比1,000-5,000个)。想象一下为了一个味道好10%的汉堡包支付500美元而不是50美元"。
荆湖说,这不是一个令人印象深刻的突破,而是揭示了一种复杂性,"这种复杂性是为了给观众留下深刻印象而设计的,同时又足够简单以避免完全失败"。
在"高复杂性"阶段,大型推理模型和标准模型都崩溃了,准确率降至零。随着问题变得更加复杂,模型简单地停止了尝试。
荆湖引用苹果论文中的图6解释说:"对于简单任务,所有模型的准确率开始都很高,然后缓慢下降,在复杂性的'临界点'处崩溃至接近零。如果与显示Token使用的行进行比较,后者随着问题变得更难而上升('模型思考更多'),达到峰值,然后在同一临界点急剧下降,即使Token预算仍然可用。"荆湖解释说,模型并没有扩大它们的努力;相反,它们放弃了真正的推理并输出更少。
加里·马库斯是AI领域的权威。他是一名科学家,写过几本书,包括《代数思维》和《重启AI》。他继续仔细审查这些AI公司的发布。在对苹果论文的回应中,他表示:"这呼应并放大了我自1998年以来一直在提出的训练分布论证:各种类型的神经网络可以在它们接触的训练数据分布内进行泛化,但它们的泛化倾向于在该分布之外崩溃。"这意味着引入给这些大型推理模型的边缘案例越多,它们就越会偏离轨道,特别是对于与训练数据非常不同的问题。
他还建议大型推理模型存在扩展问题,因为"输出将需要太多输出Token",表明正确答案对于大型推理模型来说太长而无法产生。
影响?荆湖建议:"这种比较很重要,因为它通过显示大型推理模型只在中等复杂性任务上表现出色,而不是简单或极端任务上,从而戳破了围绕它们的炒作。"
为什么这位对冲基金CEO拒绝生成式AI
Ryan Pannell是Kaiju Worldwide的CEO,这是一家专门从事预测性人工智能和算法交易的技术研究和投资公司。他在一个要求合规性和更高确定性水平的行业中工作。他使用预测性AI,这是一种利用统计分析和机器学习基于历史数据模式进行预测的人工智能类型;与生成式AI如大语言模型和大型推理模型聊天机器人不同,它不创建原创内容。
可靠的数据至关重要,对于对冲基金,他们只利用封闭数据集,正如Pannell解释的:"在我们的价格、时间和数量工作中,分析不受外部因素影响——数据的完整性是可靠的,只要采取适当的预防措施,如购买优质数据集并将其通过严格的质量控制过程,确保只使用完全清理的数据。"
他们购买的数据——价格、时间和数量——来自三个不同的供应商,当他们比较输出时,99.999%的时间它们都匹配。然而,当出现错误时——因为一些数据供应商偶尔提供不正确的价格、时间或数量信息——另外两个通常会指出错误。Pannell争辩道:"这就是为什么我们使用来自三个来源的数据。预测系统不会产生幻觉,因为它们不是在猜测。"
对于Kaiju,预测模型只使用它知道的内容和他们收集的任何新数据来发现模式,用来预测接下来会发生什么。"在我们的情况下,我们用它来分类市场状态——牛市、熊市、中性或未知。我们已经喂给它们数万亿笔交易和超过四TB的历史价格和数量数据。所以,当其中一个输出'我不知道'时,意味着它遇到了真正前所未有的东西。"他声称,如果它看到松散的模式并以75%的确定性预测熊市,它很可能是正确的,然而,"我不知道"信号着独特的情况,几十年市场数据中从未见过的东西。"这很罕见,但当它发生时,对我们来说是最令人着迷的,"Pannell说。
2017年,当川普政策变化引起重大贸易中断时,Pannell断言这些系统当时还没有到位,所以他们在这个高度不确定时期获得的收益主要是运气。但今天的系统,已经经历过这种波动水平,可以表现良好,并且具有一致性。
AI检测和COVID-19的异常
就在2020年2月股市急剧下跌之前,股市仍处于历史高点。然而,Pannell注意到系统正在发出信号,表明有些东西非常错误,市场中的奇怪行为不断加剧,"系统估计有96%的机会发生重大下跌,当时我们都不知道确切原因。这就是可解释性的挑战——AI无法告诉你新闻事件,比如满载病人的游轮或COVID如何在世界各地传播。它只是分析价格、时间和数量模式,并基于它看到的变化行为预测下跌,尽管它对潜在原因没有意识。另一方面,我们作为人类在关注新闻。"
新闻指向这个'COVID-19'的东西,当时它似乎是孤立的。Pannell的团队不确定会发生什么,但回过头来他意识到系统的价值:它分析TB级数据和每天数十亿次检查,寻找任何可识别的模式,有时确定正在发生的事情与它以前见过的任何东西都不匹配。"在那些情况下,他意识到,系统充当了早期警告,允许他们增加对冲。
凭借这些预测性AI系统产生的数十亿美元,Pannell解释说:"在内部,我们看到超过大约七天就没有效果,而Renaissance Technologies以在三到八天窗口内交易而闻名;胜率和风险的不对称回报只是下降到我们没有任何基础在一周后保持交易的地步。"他争辩说没有看到任何证据表明AI——任何类型的——将能够以90天、六个月或一年的准确性预测金融市场:"涉及太多不可预测的因素。预测性AI在即时未来——今天和明天之间——高度准确,因为可能变化的范围是有限的。"
Pannell对大语言模型和当前大型推理模型在他业务中的承诺保持怀疑态度。他描述了在尝试使用ChatGPT 4.0来架构新框架时被欺骗了三个小时的经历。起初他对系统功能的大幅增加感到震惊,但三小时后他确定它一直在对他说谎。他解释说:"当我问'你有能力做你刚才说的事情吗?'系统回答说它没有,并补充说它的最新更新已经编程它保持我的参与而不是给出诚实的答案。"
Pannell补充说:"在一个会话中,当我给出反馈时,大语言模型可以调整,比如'不要再这样做',但一旦会话进行得太久,它就忘记了并开始再次说谎。"
他还指出了ChatGPT的内存限制。他注意到它在第一个小时表现非常好,但在第二或第三个小时,ChatGPT开始忘记较早的上下文,犯错误并分发虚假信息。他对同事这样描述:"这就像与一个极其有才华但完全醉酒的程序员合作。它做一些令人印象深刻的工作,但它也高估了自己的能力,对它能做和不能做的事情撒谎,交付一些写得很好的代码,破坏一堆东西,道歉并说它不会再这样做,告诉我我的想法很出色,我'追究它的责任是对的',然后一遍又一遍地重复整个过程。经验可能是混乱的。"
符号AI能成为答案吗?
Catriona Kennedy在伯明翰大学获得计算机科学博士学位,是专注于认知系统和伦理自动化的独立研究员。
Kennedy解释说,自动推理一直是AI的一个分支,推理引擎是核心,它将逻辑规则应用于以正式语言编码的一组陈述。她解释说:"推理引擎就像计算器,但与AI不同,它操作符号和陈述而不是数字。它被设计为正确的。"它被设计用来推断新信息,模拟人类专家的决策。相比之下,生成式AI是统计生成器,因此容易产生幻觉,因为"它们不解释提示中文本的逻辑"。
这是符号AI的核心,使用推理引擎并允许人类经验和创作。它是与生成式AI不同的AI系统。符号AI的区别在于知识结构。她解释说:"你有你的数据并将其与知识连接,允许你基于你所知道的对数据进行分类。元数据是知识的一个例子。它描述存在什么数据以及它意味着什么,这充当知识库,将数据链接到其上下文——例如它是如何获得的以及它代表什么。"Kennedy还补充说本体论正在重新流行。本体论定义所有存在的事物以及相互依赖的属性和关系。例如,动物是一个类,子类是鸟,进一步的子类是鹰或知更鸟。鸟的属性:有2只脚,有羽毛,会飞。然而,鹰吃什么可能与知更鸟吃什么不同。本体论和元数据可以与基于逻辑的规则连接,以确保基于定义关系的正确推理。
纯符号AI的主要限制是它不容易扩展。Kennedy指出这些知识结构可能变得难以管理。虽然它在特殊目的任务上表现出色,但在非常复杂的层面上变得脆弱,在处理大型、嘈杂或不可预测的数据集时难以管理。
我们今天在当前大型推理模型中拥有的还没有让这些研究人员满意AI模型更接近像人类一样思考,正如Marcus指出的:"我们的论点不是人类没有任何限制,而是大型推理模型有,这就是为什么它们不智能...基于我们从它们的思想中观察到的,它们的过程不是逻辑和智能的。"
对于荆湖,她总结道:"太多钱依赖于进步的幻象——即使底层技术没有兑现承诺,也有巨大的经济激励来保持炒作。停止对生成式AI的盲目崇拜。"(注:OpenAI最近以3000亿美元的投后估值筹集了400亿美元。)
对于对冲基金CEO Ryan Pannell,将生成式AI(可以处理沟通和语言)与预测系统(可以在封闭环境中准确处理数据)结合起来将是理想的。正如他解释的:"挑战在于预测性AI通常没有用户友好的界面;它用代码和数学交流,而不是简单的英语。大多数人无法直接访问或使用这些工具。"
他选择将GPT作为中介集成,"你向GPT询问信息,它将该请求传递给预测系统,然后以自然语言分享结果——它变得更加有用。在这个角色中,GPT充当用户和预测模型之间的有效对话者。"
Gary Marcus相信通过将符号AI与神经网络结合——这被称为神经符号AI——连接数据到利用人类思维过程的知识,结果会更好。他解释说这将提供能够"推理、学习和认知建模"的强大AI。
Marcus感叹四十年来,进化机器学习的精英们,"有太多金钱和权力的封闭思想的自大狂"已经"试图压制一个好想法,即神经符号AI——只是最终意外地证实了这个想法"。
"对我一直在说的话的巨大证实:我们需要整合神经网络和符号算法和表示(如逻辑、代码、知识图等)的AI。但同样,我们需要可靠地、以一般的方式做到这一点,我们还没有跨越那个门槛。"
Q&A
Q1:大型推理模型在不同复杂度任务中的表现如何?
A:根据苹果的研究,大型推理模型在低复杂度任务中表现不如常规模型,存在过度思考问题;在中等复杂度任务中表现较好但消耗计算资源过多;在高复杂度任务中与常规模型一样都会崩溃,准确率降至零。
Q2:预测性AI与生成式AI有什么区别?
A:预测性AI基于历史数据的统计分析和机器学习进行预测,不会产生幻觉,但需要高质量的封闭数据集。生成式AI如大语言模型会创建原创内容,但容易产生虚假信息,在长时间对话中会忘记上下文并开始说谎。
Q3:符号AI能解决当前AI推理的问题吗?
A:符号AI使用推理引擎和逻辑规则,能够进行正确的推理而不产生幻觉。专家认为将符号AI与神经网络结合的神经符号AI可能是更好的解决方案,但这种方法在扩展性和处理复杂数据方面仍有局限性。
来源:至顶网一点号