清华00后校友推出“分层推理”模型,仅2700万参数,击败o3-mini-high

B站影视 港台电影 2025-08-06 15:06 1

摘要:图|前向残差与 PCA 轨迹的比较。HRM 显示了分层收敛:H 模块稳步收敛,而 L 模块在被 H 重置前反复在周期内收敛,导致残差尖峰。递归神经网络表现出快速收敛,残差迅速趋近于零。相比之下,深度神经网络的梯度消失,残差主要出现在初始层(输入层)和末尾层。通

图|前向残差与 PCA 轨迹的比较。HRM 显示了分层收敛:H 模块稳步收敛,而 L 模块在被 H 重置前反复在周期内收敛,导致残差尖峰。递归神经网络表现出快速收敛,残差迅速趋近于零。相比之下,深度神经网络的梯度消失,残差主要出现在初始层(输入层)和末尾层。通过这样的设计,HRM 能够执行一系列不同的、稳定的嵌套计算。与此同时,HRM 依然能够保持稳定地逐步收敛,这意味着它在任何计算深度下都可以取得更好的性能。利用其增强的有效深度,HRM 在需要大量搜索和回溯的任务中表现出色。HRM 仅使用 1000 个输入输出示例,且无需预训练或 CoT 监督,便能解决即使 SOTA LLM 也难以完成的问题。重要的是,HRM 模型表现出能够灵活适应不同的推理方式,并且很可能针对每个特定任务选择最有效的策略。然而,研究团队也表示,若要对这些策略形成更全面、深入地理解,仍需开展进一步研究。摆脱CoT依赖,迈向通用智能与早期的神经推理模型(如通用 Transformer)类似,HRM 在计算上具备通用性。实际上,先前的这类循环神经推理器受限于过早收敛和内存密集型时间反向传播(BPTT)问题,其有效计算深度始终受限。而 HRM 通过解决这两大难题,并引入自适应计算机制,为未来能够训练更长推理过程、解决依赖深度优先搜索和复杂回溯的难题,提供了新的可能,也使其朝着实用化的图灵完备性更进一步。除了使用人类标注的 CoT 进行微调之外,强化学习(RL)是另一种常见的训练方法。RL 主要是挖掘现有的类似 CoT 的能力,而不是从根本上发现新的推理机制。此外,RL 训练通常不稳定、数据效率低,通常需要大量探索和精心的奖励设计。相比之下,HRM 采取的是基于密集梯度反馈的监督训练而非稀疏奖励信号。同时,HRM 在连续的潜在空间中自然地完成推理过程,避免了为每个 token 分配相同的计算资源,即使不同 token 在推理和规划复杂性方面有所差异。当前研究不仅在探索递归结构在通用计算方面的潜力,也尝试将其作为替代手段,取代 Transformer 中的注意力机制。然而,仅替换注意力机制并不能改变 Transformer 本质上仍是固定深度模型的事实,因此仍然需要借助 CoT 作为补偿机制。值得注意的是,线性注意力在处理扩展上下文时能够减少对键值(key-value)缓存的依赖,使其更适合部署在资源受限的端侧设备上。HRM 通过结合分层结构与多时间尺度处理机制,在不牺牲训练稳定性和效率的前提下,实现了显著的计算深度。尽管大脑在大多数认知过程中高度依赖分层结构,但这一理念长期以来主要停留在学术讨论中,尚未有效转化为实际应用。目前主流的人工智能方法仍倾向于使用非分层模型。本研究的结果挑战了这一主流范式,表明层次推理模型是一种具有可行性的替代方案,能够取代当前主流的 CoT 推理方法,并向实现图灵完备的通用计算基础框架迈出了关键一步。整理:小羊如需转载或投稿,请直接在公众号内留言原标题:《清华00后校友推出「分层推理」模型,仅2700万参数,击败o3-mini-high》

来源:樱野春色

相关推荐