摘要:科学家在上传至预印本数据库arXiv(尚未经过同行评审)的研究中表示,HRM模型仅需2700万个参数和1000个训练样本。相比之下,最先进的大语言模型通常拥有数十亿甚至数万亿参数。虽然官方未公布确切数据,但据某些估算,新发布的GPT-5参数规模在3万亿至5万亿
这种分层推理模型(HRM)系统模仿人脑处理复杂信息的方式,在一项公认难以超越的基准测试中击败了主流大语言模型。
科学家开发出一款新型人工智能(AI)模型,其推理方式不同于ChatGPT等大多数大语言模型(LLM),因此在关键基准测试中表现更为出色。
这款名为分层推理模型(HRM)的新型推理AI的灵感来源于人脑的分层级、多时间尺度信息处理机制 —— 即不同脑区在不同持续时间(从毫秒到分钟)内整合信息的方式。
新加坡人工智能公司Sapient的科学家表示,这种推理模型不仅能实现更优性能,还能更高效地运行,这得益于该模型所需的参数数量和训练样本更少。
科学家在上传至预印本数据库arXiv(尚未经过同行评审)的研究中表示,HRM模型仅需2700万个参数和1000个训练样本。相比之下,最先进的大语言模型通常拥有数十亿甚至数万亿参数。虽然官方未公布确切数据,但据某些估算,新发布的GPT-5参数规模在3万亿至5万亿之间。
人工智能的新思维方式
研究表明,当研究人员在ARC-AGI基准测试(一项以难度极高著称、旨在检验模型与实现通用人工智能/AGI距离的考试)中测试HRM时,该系统取得了令人印象深刻的成绩。
在ARC-AGI-1测试中,HRM得分率达40.3%,而OpenAI的o3-mini-high为34.5%,Anthropic的Claude 3.7为21.2%,Deepseek R1为15.8%。在难度更高的ARC-AGI-2测试中,HRM以5%的得分率领先于o3-mini-high的3%、Deepseek R1的1.3%和Claude 3.7的0.9%。
目前最先进的大语言模型普遍采用思维链(CoT)推理技术,即将复杂问题分解为多个更简单的中间步骤,并用自然语言表达。这种方法通过将复杂问题拆解为可处理的小模块来模拟人类思维过程。
但Sapient的科学家在研究中指出,思维链推理存在关键缺陷 —— 包括"任务分解的脆弱性、庞大的数据需求以及高延迟"。
与之相反,HRM通过两个模块在单次前向传播中执行序列推理任务,无需对中间步骤进行显式监督。高层模块负责缓慢的抽象规划,底层模块则处理快速精细的计算 —— 这类似于人脑不同区域处理信息的方式。
该模型采用迭代优化计算技术,通过多次短时"思考"循环来提升解决方案的准确性。每次"思考"都会评估是否应该继续推理过程,或是将当前结果作为初始提示的"最终"答案提交。
在复杂数独求解(传统大语言模型无法完成)等挑战性任务中,HRM实现了近乎完美的表现,同时在迷宫最优路径寻找方面也表现出色。
尽管该论文尚未经过同行评审,但研究团队在GitHub开源其模型后,ARC-AGI基准测试组织者尝试复现其结果。代表人员在博客中表示,虽然成功复现了数据,但他们发现了一些意外情况:分层架构对性能影响极小,真正驱动性能提升的是训练过程中一个未充分记录的优化流程。
来源:知新了了一点号