突破信息茧房,大模型迈向自主进化

B站影视 日本电影 2025-06-01 17:01 1

摘要:模型独立设计旨在提升自身能力的新算法,并通过持续应用和评估算法实现渐进式增强。提升明显,GSM8k基准测试较初始模型提升6%,超越人工设计方法4.3%;跨领域模型表现提升7.4%,证明算法具有强迁移性。

本文来源:清熙

近期看到一个大模型研究领域有井喷趋势:如何让模型在无需人类过多干预的情况下实现自我提升

自我发展框架

让LLM自主生成并优化模型改进算法,通过聚焦模型融合策略,初始模型能通过发现新型融合技术实现迭代升级。【文献1】

模型独立设计旨在提升自身能力的新算法,并通过持续应用和评估算法实现渐进式增强。提升明显,GSM8k基准测试较初始模型提升6%,超越人工设计方法4.3%;跨领域模型表现提升7.4%,证明算法具有强迁移性。

自洽的自训练

利用LLM内在输出一致性作为监督信号,无需外部标注;通过评估多个生成答案的一致性来推断正确性并指导训练。【文献2】

用模型自身输出一致性评估答案正确性,基于自洽信号进行优化。数学推理任务达到与使用标准答案训练相当的水平,但需防范模型过于自信导致的奖励机制错位风险。

内部反馈强化学习

利用模型自身置信度(self-certainty)作为内在信号,完全替代外部奖励实现无监督学习。【文献3】

以输出置信度作为唯一奖励信号,取代GRPO算法。数学基准测试可达到与GRPO相当的水平,并且获得增强的跨领域泛化能力,尤其代码生成。

进化式编程智能体

Google DeepMind提出AlphaEvolve,由LLM驱动的进化式编程智能体,通过结合自动化评估器在进化框架中迭代优化算法。【文献4】

采用选择-变异-重组机制迭代进化算法,评估器自动检验算法正确性与效率。验证此方法时,意外发现高效的复值矩阵相乘的新算法,超越经典。

DeepSeek GRPO

笔者认为GRPO【文献5】在DeepSeek R1模型上的成功激发了整个领域,之前讨论过多次,此文不再赘述。

请参考GRPO 是DeepSeek魔法的源泉,d1:通过GRPO在扩散LLM中缩放推理,DeepSeek-Prover-V2-671B 发布,LEAN + GRPO的威力。

模型自训练演化

综上可见模型自训练机制如下演进方向

1. 从外部监督转向内在信号,减少对外部奖励和人工标注的依赖;以提升泛化能力为优先激励,内部反馈机制具备出色的跨任务适应性。

漂亮国的核潜艇与深度学习的内卷中,笔者总结过最大释然方法的核心约束:用于训练的“观测到的数据集”事实上决定了模型可以学习到的极限,成了所有学习方法的信息茧房。

OpenAI研究员肯尼斯·斯坦利在《为什么伟大不能被计划》中讲过类似的观点:“单一的目标导向思维会阻碍创造力和创新,人类在人工智能领域的许多基准文化可能已落入歧途”。

自训练奖励机制,一方面可以摆脱人工构建“观测到的数据集”的高昂成本,突破人为的数据集茧房,将强化学习样本域拓展到整个训练或者测试数据集;

另一方面,可以推进模型真正学习到一般规律,而不是简单地对“观测到的数据集”的行为逼近或拟合。即推动模型学习泛化到推理场景,实现边推理边学习,从而类似DeepSeek-R1-Zero激发推理Scaling Law。

2. 整合进化策略,发掘进化算法在输出优化中的潜在价值;推动模型更自主、更高效、更普适,无需人类全程监督自我进化。

“算法的强大力量,并不在于设定好一个目标时做事情的能力;而在于当没有设定目标时,做事情的能力” ,伟大不能被计划,也不能被茧缚 ,或许这是为何整个领域不约而同走向模型自主进化。

赫胥黎的焦虑与美丽新世界中,笔者讲到 “ 神经进化就是用进化算法生成神经网络,探索优化网络的架构、参数、拓扑以及规则,为困扰ANN的局部最优、梯度依赖、规模并行、架构自动化等问题,找到有效的解决方法”。

整个生物进化的历史,其实就是宇宙遴选适应真实自然环境的个体的过程,而且这个遴选的过程需要看长周期表现,毕竟这个世界处处都可能是“塞翁失马”的情境,一切都应道法自然。

沿最优输运方向的重整化可能是世界演化的核心方式中笔者断言:世界上的万事万物不过是能量传递与演化的不同方式。重整化带来不同的尺度,而最优输运则决定演化的方向。这也应该是设计模型自我进化方法的根本原则。

“进化,是自然界最伟大的算法”,而神经进化,或许正是AI迈向更高智能的关键。未来,我们或许会看到更多完全由AI自主设计、进化的智能系统,可能催生真正的通用人工智能。

[1]: https://arxiv.org/abs/2410.15639 ,"Can Large Language Models Invent Algorithms to Improve Themselves?"

[2]: https://arxiv.org/abs/2505.21444,"Can Large Reasoning Models Self-Train?"

[3]: https://www.arxiv.org/pdf/2505.19590,"Learning to Reason without External Rewards"

[4]:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

[5]: https://arxiv.org/abs/2402.03300,"DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models"

来源:人工智能学家

相关推荐