从人工到AI自造!DiscoRL改变算法开发,研究员减负了

B站影视 欧美电影 2025-10-30 17:16 1

摘要:GoogleDeepMind团队最近在《自然》期刊发了项研究,他们搞出的DiscoRL系统,居然能让AI自己发现强化学习算法,不用人提前设定一堆规则。

GoogleDeepMind团队最近在《自然》期刊发了项研究,他们搞出的DiscoRL系统,居然能让AI自己发现强化学习算法,不用人提前设定一堆规则。

这事儿放在以前想都不敢想,毕竟之前AI的学习规则,全得靠研究员一点点试出来。

传统强化学习算法的开发真不是一般费劲。

就拿大家知道的MuZero来说,研究团队花了快3年才搞出来,中间调了上百次实验。

还有PPO算法,从理论想到落地能用,也耗了18个月。

研究员得反复推导理论、验证实验,少则几年多则十几年才能出个能用的规则。

传统算法的开发周期被拉得这么长,人力成本也高得吓人,更关键的是,这些人工设计的规则,一碰到没见过的复杂环境就容易“歇菜”。

正是因为传统方法这么麻烦,DiscoRL一出来才显得格外突出。

它走的是另一条路:让多个AI智能体在不同环境里并行学,系统自己观察这些智能体的表现,慢慢优化学习规则。

最后搞出来的Disco57规则,在57个Atari游戏测试里,四分位数平均值达到13.86,直接超过了MuZero、Dreamer这些之前的“王者”算法。

我觉得这步最牛的不是性能超了多少,而是它把AI的角色从“学知识”变成了“学怎么学知识”,这思路一下就打开了。

本来想只看Atari的测试结果就下结论,但后来发现它在计算效率上也赢了,比现在最先进的系统还省劲儿,这就更难得。

DiscoRL能成,核心靠的是它的双重优化架构,有点像学校里“学生练题加老师调教学方法”的组合。

这两层少了哪层都不行,必须一起发力。

智能体层面就像学生练题,得有个标准判断对错。

DiscoRL用的是Kullback-Leibler散度,简称K-L散度,靠它衡量智能体的输出和目标之间的差距,保证训练不跑偏。

每个智能体还会输出三类结果:策略决策、观测预测、动作预测,元网络会给这些结果定好学习目标,指导智能体调整参数。

这就好比老师给学生圈出重点,学生知道往哪使劲儿。

元网络层面更像校长管全局。

多个智能体在不同环境里各自学习,元网络会盯着所有智能体的整体表现,计算“元梯度”,再跟着调整自己的参数。

这里有个巧思,智能体的参数会定期重置,避免陷进“局部最优”的死胡同,就是那种练来练去,只在某个小范围里表现好,换个情况就不行的问题。

元梯度的计算也不简单,结合了反向传播算法和优势行动者-评论家方法,还专门配了个价值函数评估性能。

如此看来,这两层优化不是各自为政,而是互相配合,才能让AI自己琢磨出好用的规则。

DiscoRL最让人惊讶的,其实是它的泛化能力,简单说就是没学过的东西也能搞定。

在16个ProcGen二维游戏里,它没练过却超过了所有已发表的方法,包括MuZero和PPO。

Crafter基准测试里表现也不差,更厉害的是NetHackNeurIPS2021挑战赛,那年有五十多支队伍专门针对这个游戏优化,结果DiscoRL没练过还拿了第三。

搞不清大家有没有这种感觉,这就像没准备过的人去参加竞赛,还比专门备过考的人分数高,属实有点离谱。

研究团队还做了个实验,用Atari、ProcGen、DMLab-30三个基准的103个环境,搞出了Disco103规则。

结果很明显:环境越多样、越复杂,搞出来的规则就越厉害。

Disco103在Crafter测试里甚至达到了人类水平,Sokoban游戏里也快赶上MuZero了。

这说明啥?算法的质量,跟训练环境的多样性、投入的计算资源直接挂钩,有点像“见多识广才能更厉害”的道理。

效率上,DiscoRL更是把传统方法甩了一大截。

之前人工设计一个能适配多场景的强化学习算法,平均得8个人忙一年。

但DiscoRL呢?找出最优的Disco57规则,每个Atari游戏大概6亿步就够了,五十七个游戏也就三轮实验,换算下来三个月不到。

毫无疑问,这不仅能省成本,还能让研究员从繁琐的参数调优里跳出来,去琢磨更顶层的问题,比如怎么设计更好的训练环境。

但问题也跟着来了。

研究团队自己也说,现在社会可能还没做好准备迎接这项技术。

这话挺实在的。

AI自己能改学习算法,万一改出的规则我们看不懂,成了“黑箱”,到时候咋控制?而且它的进化速度可能超出我们预期,现在还没明确的安全管控办法。

并非明智之举的是,我们不能只盯着技术突破高兴,这些风险得提前想明白,不然再厉害的技术也可能出岔子。

DiscoRL不是简单的性能提升,而是给AI发展指了个新方向,从“人喂知识”到“AI自造学习方法”。

这既是AI发展史上的一个里程碑,也给我们提了个醒:技术往前跑的时候,安全和管控得跟上。

毕竟AI再厉害,最终也得服务于人,不能反过来让人犯难。

来源:念寒尘缘

相关推荐