摘要:接着说点干货:这不是花拳绣腿的花里胡哨,而是把“看谱系”这个想法放进自动改进流程里,结果比那些只盯当前分数的方法跑得更稳、花的评估次数也少。研究团队把注意力从单个智能体的即时得分,转移到它能不能生出一堆更强后代上——把这个量化后叫做谱系元生产力,简称 CMP。
在8000次评估后,赫胥黎–哥德尔机(HGM)找到了一个能解决61.4%任务的优化智能体
接着说点干货:这不是花拳绣腿的花里胡哨,而是把“看谱系”这个想法放进自动改进流程里,结果比那些只盯当前分数的方法跑得更稳、花的评估次数也少。研究团队把注意力从单个智能体的即时得分,转移到它能不能生出一堆更强后代上——把这个量化后叫做谱系元生产力,简称 CMP。说白了,就是别只看眼前的漂亮成绩,看看这条路以后能不能走更远。
实验怎么跑的:他们在几个编程任务基准上试,包括 SWE-Verified、SWE-Lite 和 Polyglot。目标有三项:查一查“现在分数高不代表以后会更好”这事到底有多普遍;再比比用 CMP 去估计哪个设计更有长远价值,能不能比传统指标靠谱;最后把 HGM 跟两种先进的自改进方法 DGM、SICA 在性能和效率上对比。结果挺直观:HGM 在准确性和运行时间上都领先,而在不同模型、不同数据集上也没崩。
举几个数字别糊弄人:在 SWE-Verified 上,HGM 经过 8000 次评估后覆盖率是 61.4%,这个成绩在相同资源限制下已经超过了用 GPT-5-mini 手工挑出来的最优智能体。把 HGM 找到的“best-belief”智能体拿到 SWE-Lite 去看,未见过的数据(filtered)设置下得了 40.1%,标准设置下是 49.0%。对比它最初的表现(34.8% 和 44.0%),提升明显,说明这套优化并不是只在训练集上捡便宜。把模型换成更强的 GPT-5 后,表现依然稳健,接近排行榜上人工优化的顶尖方案,这就说明 HGM 把某些有普适价值的设计策略找出来了,不是靠数据集巧合。
再说一个关键点:一些现有方法试图用当前得分去预测长期改进潜力,这事不太靠谱。论文里指出 SICA、DGM 给出的长期改进指标和 CMP 的相关性并不高。举例来说,在 SWE-Verified-60 上,SICA 与 CMP 的皮尔逊相关系数约为 0.444,DGM 大约是 0.285;在 Polyglot 上分别是 0.274 和 0.383。简单理解就是:当下分数高的不一定能生出更强的后代,这就是所谓的性能错位问题。
那 HGM 怎么做决策?它把“谱系级别的统计特征”放到前台,不再只盯着单点成绩。把一个节点的价值定义为其整个子树后代的平均表现,这就是 CMP 的直观意思。基于这个度量,HGM 在扩展和评估上采取了分离策略:先决定要不要扩展某条谱系(也就是去产生新智能体),再去规划评估哪几个候选。为了在探索和利用之间找到平衡,它用到了类似 Thompson 采样的想法和一种叫 UCB-Air 的准则来决定什么时候把新成员放进存档。扩展的门槛里头有一个形式化条件,论文里写成像 N_t^α ≥ |T| 这样的阈值判定;除此之外,扩展准则还会用谱系里已经发生的“通过”和“未通过”的计数(n_success、n_failure)来做加权估算,从而判断哪条谱系更值得投资。
这么做有两点好处很明显:一是评估资源不再被短期看起来光鲜的个体浪费掉,二是更容易找到那些虽然现在不亮眼但将来能带来连续改进的设计路线。换个比喻,别整天只看半年报,得盯着公司有没有能撑十年的经营策略。实验里 HGM 在评估次数和时间成本上都比 DGM、SICA 更省劲、更高效。
理论背景也能交代两句:哥德尔机这个概念并不是新发明。2003 年,Jürgen Schmidhuber 基于哥德尔不完备定理提出过让机器“自我证明并改写自己”的想法。理想状态下,这种机器能证明某些代码改动会在长期带来更高回报,证明成立就自动改代码,理论上很能跑通。现实里问题也挺多:证明过程本身就耗资源,而且智能体通常没法无穷次试错。赫胥黎–哥德尔机(HGM)可以看作是把这种哥德尔机的思路做了工程化、可估计化的演绎:把全局上难以计算的东西局部化成谱系上的统计特征,再用这些信号去引导搜索和扩展。
论文里还区分了更大范围和更局部两种指标。全局的元生产力(GMP)理论上衡量系统整体的长期自改进潜力,但实际估计代价太高。CMP 则把关注点缩小到某个智能体做根的子树上,更容易计算,也更能捕捉那种“这一步能带来后续改进能力”的信息。HGM 的三个子策略核心都围绕着这个思想:通过谱系已有的经验做加权估计来选谱系;把扩展和评估流程分离并异步进行以提高吞吐;用类似 UCB-Air 的机制平衡探索与利用。这些机制组合在一起就是 HGM 能在多套基准上体现优势的原因之一。
实验细节上,HGM 的异步扩展-评估流程也挺有意思。传统做法往往是一条线性流水:设计新智能体、评估、再设计。但 HGM 同时运行扩展和评估,可并行产生新候选并对已有候选进行更经济的评估。这样一来,系统不会因为某个短期高分样本而反复浪费评估资源,也能更快把注意力放到那些谱系统计上显示有潜力的设计上。
说点业界感受:把谱系统计投入到自动改进决策,等于在给系统装上“长远观察”的眼睛。这在工程上有实际意义——团队不用天天为了短期分数死磕,而是能花力气在能产生持续改进的方向上试错。现实里,估计 CMP 的准确性、降低评估成本、还有把这套思路推广到更复杂任务集上,是下一步要盯着的几个活。论文里也没有回避这些难点,反而把很多实现细节、像 UCB-Air 的参数设定、N_t^α ≥ |T| 这类阈值判定、以及如何用 n_success、n_failure 做谱系加权,都写得比较清楚。
来源:温泉惬意享受
