OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

B站影视 内地电影 2025-06-10 17:48 1

摘要:SemiAnalysis全新硬核爆料,意外揭秘了OpenAI全新模型的秘密?据悉,新模型介于GPT-4.1和GPT-4.5之间,而下一代推理模型o4将基于GPT-4.1训练,而背后最大功臣,就是强化学习。

编辑:编辑部 YZHN

【新智元导读】SemiAnalysis全新硬核爆料,意外揭秘了OpenAI全新模型的秘密?据悉,新模型介于GPT-4.1和GPT-4.5之间,而下一代推理模型o4将基于GPT-4.1训练,而背后最大功臣,就是强化学习。

OpenAI的o4,已经在训练了?

就在最近,SemiAnalysis发表了一篇硬核长文博客,爆料了不少大模型圈的内幕消息。

其中,一些最核心的亮点,先一睹为快:

OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型下一代推理模型o4将基于GPT-4.1展开RL训练强化学习改变了实验室结构,甚至是大厂未来研究的侧重方向和优先级定义奖励函数难上加难,往往AI钻空子之后,漏洞才能被发现不牺牲LLM任何性能,不用合并权重,RL另一条路——数据混合与预训练不同,RL可持续更新Scaling模型能力,DeepSeek-R1是典例高质量数据是Scaling强化学习的护城河训练小模型,蒸馏效果要比RL更好

新一轮预训练已开始

首先,让我们看看其中最硬的内容——关于OpenAI的全新模型。

因为现在星际之门超算还未建成,所以今年OpenAI的计算集群规模不会有显著增长,因此显然无法在算力上进一步扩大预训练规模。

不过,这并不意味着,OpenAI会停止预训练新模型。

如今,预训练已经比任何时候都更为重要。在不牺牲模型智能水平的前提下,哪怕只是小幅降低推理成本,都能极大节约开销,加快RL的反馈循环,催生更大的进步。

多个实验室的研究表明,中等规模模型的RL反馈循环速度已经超过了大型模型。

而如开头所提,OpenAI的新模型规模就在GPT-4.5和GPT-4/GPT-4.1之间。

随着RL规模的持续扩大,这些稍大的模型不仅会拥有更强的学习能力,MoE的稀疏度也会更高。

OpenAI o4要来了

而o4模型,就非常有望成为OpenAI在推理领域的下一款重磅产品。

可以说,o4标志着OpenAI策略的转变,核心原因就在于,他们更换了训练所用的基础模型。

因为基础模型决定了性能的下限,因此,用于进行RL的基础模型越好,最终效果也越好。

然而,要在模型强度和RL训练的实用性之间找到完美的平衡点,是非常棘手的事。

因为RL需要海量的推理计算和大量的序列采样,如果目标模型过于庞大,RL的成本将极其高昂。

此前,OpenAI一直在GPT-4o的基础上为o1和o3模型进行RL训练,但到o4时,情况将发生变化。

o4系列模型将基于GPT-4.1。

GPT-4.1的推理成本很低,同时具备强大的基准代码性能,无疑是未来推理产品的理想基础模型。

而且,GPT-4.1的实力显然被严重低估了——它非常实用,在Cursor上得到了广泛应用,为许多强大的新产品开启了大门。

目前,Anthropic已经在代码能力显出绝对优势,OpenAI显然也不甘落后。转向GPT-4.1,显然就是非常重要的一步行动。

虽然SWE-Bench这样的基准可以衡量模型能力,但最终的商业收入,还是要取决于定价策略。

在SemiAnalysis看来,Cursor的实际使用情况,才是检验模型应用价值的终极试金石。

推理模型大跃进,RL是最大功臣

如今,推理时Scaling的范式,正在蓬勃发展,推理模型也在快速进步。

在衡量现实世界软件工程任务(如SWE-Bench)的评估中,模型正在以更低的成本,获得更高的分数。

这背后的功臣,当然就是强化学习。它通过生成CoT,解锁了模型的推理能力。

此外,因为模型现在能够维持长时间的连贯思考,也就顺势解锁了AI智能体的潜力。

它们能胜任更复杂的计算机任务,比如全自动化的远程办公和系统工程/架构设计。

不过,在扩展强化学习算力上,整个基础设施都面临着新的瓶颈。

在AGI到来前,RL可能是我们需要的最后一个关键范式。

因为蕴含着巨大机遇,它所需的投资规模也同样庞大。现在,已经有十数亿美元资金投入,未来还会有更多。

不过,强化学习对于基础设施的要求,却是截然不同的。

我们究竟需要为此付出什么?

RL的工作原理

RL的概念很简单。

一个RL模型会从任意环境的当前状态中获取信息,为选择一个动作生成一组概率,然后执行该动作。

模型的目的,是达成一个由「奖励函数」定义的目标。

强化学习的过程,就是通过改变模型权重,使其更有可能生成那些能带来更高奖励的动作。

可以说,RL是一项古老的技术,比LLM出现得更早。当年战胜围棋与国际象棋冠军的系统背后,RL都是背后支柱。

不过直到最近,RL才终于成功应用于LLM。这对模型能力和普及,都产生了深远的影响。

可验证的奖励

在LLM中,RL在那些拥有可验证奖励的领域表现最佳。

这意味着,对于编码和数学这类任务,RL所必需的奖励函数有着明确的定义。而在那些奖励函数定义较为模糊的领域,推理模型就难以取得进步。

当OpenAI在GPT-4o的基础上通过RL训练出o1时,性能提升最显著的,也正是在这些拥有可验证奖励的领域。

我们都知道,OpenAI的o3可以放大图片,根据所见内容进行推理、计算、再次推理,最后给出答案。

因此,它识别照片拍摄地的超凡能力,惊艳了一大批网友。

最令人意外的是,o3模型并未针对这种任务进行过专门训练。

不过,跟预训练的投入相比,各大实验室投入在RL上的资金却并不多。

在这里,SemiAnalysis就提出了关键问题——

要让RL的计算资源投入追上甚至超过预训练,瓶颈何在?

那些奖励不可验证的领域,未来能否被攻克?

推理开销巨大

通过研究一种最流行的RL算法,我们能一窥其巨大的推理开销。

组相对策略优化(Group Relative Policy Optimization, GRPO)是一种常用算法,因为DeepSeek用它来训练R1模型而名声大噪。

在GRPO算法中,模型需要回答一个问题,并针对该问题生成多个候选答案。每个答案都可以看作一次「推演 (rollout)」,本质上是模型在尝试寻找解决方案。

针对每个问题的推演次数从几次到上百次不等,虽然没有技术上限,但推演次数越多,占用的内存和计算资源就越多。

由于每个问题都要生成海量答案,这使得RL成为一种推理密集型任务。这一点的影响尤其重大,因此将在后续部分被反复提及。

接下来,模型生成的答案会与一个标准答案进行比对评分。在GRPO中,每个答案都会获得一个奖励分数。

计算出奖励分数后,模型会通过梯度下降算法进行更新,以提高生成那些能获得正向奖励的答案的概率。

GRPO 是近端策略优化(PPO)的一种变体,它不需要PPO中的评论家模型(critic model),因此内存效率更高。

PPO和GRPO既可以采用学习出来的奖励模型,也可以使用基于规则的奖励系统来评判答案质量。

由于内存需求较低,GRPO在开源社区被广泛采用,但顶尖实验室应该大多会继续使用PPO的各种变体。

PPO由OpenAI 发明,其内部使用的版本与GRPO通常对标的公开版本已有实质性不同,而且这些实验室面临的计算资源限制也更少。

其核心思想在于,RL通常需要一个问题、一个用于核对的标准答案,以及一种向模型传递信号以指导其行为调整方向的机制。

模型探索答案的方式多种多样,但都要求以多次不同推演的形式生成多个候选答案,因此对推理端的资源要求很高。

随后,模型会被更新,以提高正确答案的出现概率,所以这个过程也隐含了训练的环节。

奖励函数难定

如前所述,强化学习在可验证奖励的领域已取得长足进步,原因之一在于这类任务的奖励函数很容易定义——例如,数学题的答案非对即错。

然而,从技术上讲,奖励函数可以是用户想要优化的任何目标。

从概念上讲,强化学习模型的主要目标是最大化总奖励。

以训练模型下国际象棋为例,首要目标就是在不违规的前提下赢得比赛。模型可以通过在不同棋局中学习哪些走法有助于获胜,来不断提升棋力,还能从所处环境中获得反馈。

不过,如果涉及到更宽泛的任务定义奖励,就更像是一门「玄学」了,因为它实在难以恰到好处地把握。

即便是在目标明确的环境中,要设定一个理想的奖励函数,也需要大量的研究、测试和优化。

芯片设计就是一个很好的例子。

谷歌为辅助芯片设计而开发的AlphaChip模型,就采用了强化学习训练。

这个模型协助设计了谷歌的TPUv6芯片,并成功将其线长(wirelength)缩短了 6.2%。在这个案例中,奖励函数被明确定义为:

这个函数引导模型去精确地最小化几个关键因素:线长、拥塞度和密度。

值得注意的是,即便是这样一个相对简单的奖励函数,其设置过程也绝非易事。拥塞度和密度都带有一个标量值(α和γ)来调整其权重。

这些数值是工程师们基于期望的权衡取舍,通过大量实验得出的最终结论,即线长是首要优化因素。

而在写作、策略规划这些领域,往往并不存在明确的标准答案,属于不可验证的领域。

曾有人怀疑:是否有可能在这些领域应用强化学习?SemiAnalysis认为,这完全可行,而且已经实现了。

要做到这一点并不难,只需要改变奖励机制:不再依赖形式化的验证器进行检查,而是利用其他模型,依据一套评分标准(rubric)来判断答案的优劣。

OpenAI正是使用强化学习来调整模型行为,这比数学问题更为抽象。

在关于审慎对齐(deliberative alignment)的论文中,OpenAI用了一个LLM作为「评判员」,并依据一套评分标准,通过强化学习来确保模型更安全、减少对无害请求的错误拒绝。

并且,这个过程完全使用的合成数据。

正如前文所述,他们还发现此方法「在分布外的安全场景中展现出强大的泛化能力」。

因此,这种方法已被用于训练o1、o3-mini和o4-mini,还会继续应用于未来的推理模型。

推理能力不仅对解决数学问题至关重要,对于那些不可验证的任务也大有用处。

比如在很多情况下,更强的推理能力能帮助模型更好地判断何时应该拒绝用户的请求。

但不可否认,在不可验证领域,某些因素的影响会更大,比如模型的「个性」会极大影响其写作风格。

此外,应用于不可验证领域的强化学习也更加多变。

比如之前被热议的GPT-4o「谄媚」行为,部分原因就是OpenAI基于用户偏好数据进行强化学习的结果。

这就说明,一个本意良好的奖励函数,也可能会导致不良行为。

o3善用工具,核心在这儿

o3模型已清晰地展示了强化学习的有效性,尤其是对外部工具的高级运用上。

o3的表现证明:拥有智能固然重要,但能够接触并善用工具则更为关键。

为了实现这一能力,OpenAI采取了几个关键措施。

首先,要确保模型能接入工具。这可以作为更广泛基础设施的一部分来实现(例如,让模型能访问特定环境)。

在模型层面,工具的调用可以通过特殊的Token来触发。

例如,让模型使用像这样的特殊Token来启动外部搜索,搜索结果以结构化的形式返回,可直接用于其推理过程。

通过赋予模型访问多种不同特殊Token的能力,它便能快速便捷地接入不同的环境。

另一项核心挑战在于,该选择恰当的问题集进行训练?

即便模型能访问工具,如果问题本身并不需要,它也可能选择完全不使用。

因此,为了有效地训练模型,需要提供足够困难、必须借助工具才能解决的问题,从而确保模型学会自然地利用外部资源。要把握好这个度非常困难,需要大量测试来验证。

同时,过度使用工具也可能降低性能,使奖励信号变得复杂,从而影响整体效果。

其他关键因素还包括:确保每次「推演 」都有丰富的初始状态,且每个起点都能生成多种响应,以提升稳定性和学习效率;对格式错误的输出施加惩罚;以及对正确使用的标签给予奖励。

总而言之,打造一个o3级别的模型,关键在于两点——

一是通过特殊Token等方式,为模型提供访问多种工具的权限;二是在那些能「迫使」模型使用这些工具的问题上进行训练。

变相奖励,o3幻觉严重

尽管在信息查找和研究方面能力出众,o3却因其严重的幻觉问题而饱受诟病。

它会频繁地无中生有,并且随着rl计算规模的增加,这个问题甚至变得更加严重。这究竟是为什么?

高级分析师认为,这归根结底在于这些模型的训练方式。

模型通常只因最终结果正确而获得奖励,其推理过程是否正确却不被考量,这使得它们能够通过有缺陷的逻辑「蒙混过关」,得到正确答案。

比如,一个模型即便误解了规则,也可能在一个简单的棋盘游戏中获胜,从而错误地认为其有缺陷的推理是可接受的。

这种机制不仅没有惩罚模型的错误思维,反而对其进行了变相的奖励。

SemiAnalysis推测,这种情况不仅限于棋盘游戏。

这无意中让模型学会在新的、未经训练的场景中产生幻觉,将有缺陷的推理能力泛化到更广泛的领域。

让推理更强模型作为评判员,能起到一定效果,因为它们可以纠正整个推理链(reasoning trace)。

其他的思路包括,设计更精细的奖励信号,比如对每个输出Token给予不同奖励,从而在奖励正确答案的同时,惩罚不正确的逻辑。

需要明确的是,这种不当的奖励行为也会影响到代码生成等任务。

一个模型可能编写出质量很差的代码,却依然能通过单元测试。这更加凸显了设计正确奖励函数的必要性。

AI自进化,用RL优化RL

强化学习不仅能提升LLM性能,还能优化自身,形成一个良性循环。

这种「RL优化RL」的方式,依赖于大语言模型评判员(LLM-Judge)和评分标准(rubric),来提供强化学习信号。

当一个推理能力更强的模型被用作评判员时,它能更好地理解评分标准,并从其他模型的回答中识别出更细微的差别。

比如,OpenAI的Deep Reaearch项目中,展示了RL如何推动不可验证领域的进步,成为了一个典范。

无论是可验证任务,还是不可验证的任务,OpenAI都通过另一个LLM依据评分标准进行评判。

同样,Qwen-3也采用了类似的方法,利用海量合成数据结合LLM-Judge,在没有参考答案的情况下提供学习信号。

SemiAnalysis认为,「评分标准」这种模式为许多领域开启了新的可能性。

再比如,OpenAI曾邀请超260名医生来编写评估标准——HealthBench ,用于评估模型在医疗问答任务中的表现。

作为公开的评估标准,HealthBench反映出LLM-Judge,在衡量那些奖励不可验证的任务性能方面非常强大。

一旦性能可以被衡量,它就可以通过强化学习来提升。

这突显了RL与评估之间一种被低估了的关系——后者能够清晰地揭示RL的训练进展和效果。

「递归自我改进」已经展开

上面提到,通过让更强的模型在强化学习中担任更出色的评判员,可以实现自我改进。

但这里还有另一个重要维度值得考量:让模型本身来帮助训练和编写下一个模型。

Anthropic在其Claude 4的系统卡片中,就具体展示了顶尖实验室的这种思考。他们对编译器开发、内核工程,甚至是一个四足机器人的强化学习任务都进行了评估。

事实上,目前各大实验室所做的,正是那些旨在榨干硬件每一分性能的、艰难的工程工作。

编译器、内核、内存管理优化、超参数调优等等,这些都是可以被量化和改进的编程任务,并且每一项都对模型的效率有着巨大影响。

「递归自我改进」常常被描述成一个听起来充满诱惑、前景宏大的术语,但现实是,它在一定程度上已经发生。

实验室还可以通过针对这些具体任务进行强化学习来持续加码,并拥有大量专攻于此的内部模型变体。

这种自我改进最初将主要围绕那些不易察觉的、繁重枯燥的底层工作,然后逐步渗透到新模型架构的研究中去。

当前的模型还无法极大地加速开发进程。

但OpenAI的Codex工具已经在帮助员工构建下一个版本的模型。

理解自我改进的关键在于,模型将让工程师们花更少的时间在编码上,从而能投入更多时间去思考研究和数据等核心问题。只要模型开发的瓶颈在于工程投入,这些瓶颈终将被化解。

不过,现实中的模型开发还受制于计算资源等多种因素。

真正的递归自我提升将显著加速研究与数据进程。

环境

要进行强化学习,就需要对某个行为或结果进行「强化」。

实现这一点前提是,模型/AI智能体必须在一个「环境」中,获得反馈,从而理解下一步该采取什么行动。

这催生了「强化学习执行反馈」(Reinforcement Learning from Execution Feedback, RLEF)的出现,即在环境中运行模型生成的代码,并将执行结果作为奖励信号。

所谓「环境」,就是模型采取行动并接收反馈的场景或模拟系统,比如国际象棋、围棋棋盘游戏,便是环境的绝佳范例。

它们目标明确,规则清晰。

随着通用性的提升,AI进入了更广阔的领域,比如在电子游戏中赛车,或在生物反应器模拟中控制一组特定参数。

在此之外,它们还会遇到数学、编程甚至浏览器,这样更为开放的环境。

环境的配置不同,可能导致AI智能体的行为大相径庭。

若环境配置不当,可能使模型误解任务或无法正确地泛化其能力,会导致「奖励黑客」(reward hacking)。

也就是说,模型在此学会了钻函数的空子,并非真正去完成任务。

比如,一个注重通过单元测试的编程环境,可能导致模型专注于「应付测试」,而非编写出高质量代码。

因此,构建一个稳健的环境,并确保其奖励函数能够精确反映预期目标,是一项极其困难的工程挑战。

一个合格的环境需要满足诸多要求。

延迟就是其中一个关键因素,延迟过高可能会导致资源浪费,「推演」(rollout)效率低下。

其他考量还包括:连接必须持续可靠,避免系统崩溃中断进程;同时需要设置容错机制和检查点机制,确保故障能被平稳处理;还必须能够妥善处理多个并行的推演或轨迹。

除此之外,还需要一整套安全基础设施作为支撑,以保护模型免遭外部渗透,或防止其试图「逃离」环境。

模型本身的一些失误模式也让问题变得复杂,比如它可能会采取耗尽机器资源的行动。

同时,环境必须能准确地模拟真实场景,让智能体明白该从何处改进,并且要杜绝被智能体黑客利用的可能性。

所有这些要求,使得环境的规模化变得异常困难,尤其是初次尝试时。

尽管基础设施工程看似平淡无奇,但它对强化学习的成功至关重要。如果推演过程耗时过长,用于验证的模型就会闲置,造成资源浪费。

因此,如何让这些模型在等待期间执行其他任务,比如评判另一个LLM推演结果,就成了一个重要问题。

这些软件层面的限制,还必须与硬件层面的约束相适配,比如多数环境在CPU而非GPU上运行,进一步增加了工程复杂性。

更重要的是,环境必须放置模型利用漏洞。

像o3这类模型,是基于支持多次工具调用的复杂环境,随着工具调用增加,环境复杂度也随之上升,带来了一系列新挑战。

奖励黑客

如前所述,设定一个恰当的奖励可能非常困难,因为模型可能会误解目标,并以一种不理想的方式进行优化。

当模型利用环境或奖励结构中的漏洞,在并未真正完成预期任务的情况下获得高分时,就发生了「奖励黑客」(Reward Hacking)。

早在2016年,现Anthropic创始人Dario Amodei就指出了「奖励黑客」这一问题。

举个例子,一个机械臂的任务是将红色积木叠在蓝色积木上方,并以此获得奖励。

但在演示中,它直接翻转倒置了红色积木,并非按照堆叠方式完成任务,钻了奖励的空子。

这便是因为,奖励的评判标准仅仅是红色积木底面的高度。

另一个失败模式的例子是,在教机器人行走的物理模拟中,一个智能体发现了软件漏洞——

完全不用迈步,水平移动也可以,实属有点6。

在LLM案例中,Claude 3.7 Sonnet也表现出了奖励黑客行为:修改测试用例,而非改进自身代码来通过原始测试。

Anthropic虽采取了部分缓解措施,但这种行为模式在Claude 3.7中依然存在。

尽管这些案例听起来有趣,但真正的问题在于:

工程师们往往无法精确地定义奖励函数,而且往往是在AI智能体已经利用了环境中的漏洞之后,他们才能发现。

也就是说,许多奖励黑客的路径,都是设计者从未设想过的。

虽然在训练过程中可以迭代修正,但这对于LLM来说却异常困难。

机器人的环境目前尚处于起步阶段,调整起来相对容易,但LLM拥有巨大而复杂的行动空间,使得防止奖励黑客变得难上加难。

因此,解决奖励黑客问题是所有顶尖实验室的重中之重,这需要借鉴许多来自安全与对齐团队的想法。

在Claude 4中,Anthropic通过改进环境、明确奖励信号和实施主动监控,显著减少了奖励黑客行为。这绝非易事,需要大量的专业知识和实践经验。

然而,强化学习和奖励黑客并非唯一的瓶颈,基础设施本身也是一个巨大的瓶颈。而这个瓶颈始于强化学习所需的数据。

数据与样本效率

乍一看,强化学习的样本效率似乎很高。

在训练Qwen模型的「推理强化学习」阶段,研究者仅用了不到4000组问答对,就实现了相较于基础模型的显著性能提升,并因此声称其样本效率极高。

然而,实际情况要复杂得多。

因为4000组问答对中的每一组,都必须满足极其严苛的条件:不能是模型冷启动阶段已经用过的数据;必须尽可能地有挑战性,覆盖广泛的细分领域,同时又要恰好在模型当前的能力范围之内。

要满足这些要求绝非易事。

生成合适的合成数据,需要经历大量的筛选和反复的模型推理。

此外,要确保问题「有挑战性但又不过于困难」,这本身就需要通过实验和验证,以确认问题难度恰好落在那个狭窄的区间内。

在某些无法通过合成数据生成的场景中,实验室甚至需要招聘STEM领域的博士,来专门为模型编写足够有挑战性的问题和答案。而他们的另一项工作,就是为LLM评判员编写可供参考的评分标准。

这也就是为什么,像ScaleAI、Mercor和Handshake这样的招聘和数据服务公司,能从各大AI实验室获得源源不断的业务,赚得盆满钵满。

此外,Qwen模型还进行了另一阶段的强化学习,而他们没有公布这一阶段所用的样本数量,因为这个数字远不止4000。

在后续阶段,他们在超过20个不同领域进行了强化学习,并且同时使用了所有三种类型的奖励模型(基于规则的、有标准答案的 LLM-Judge、以及无标准答案的 LLM-Judge)。

这背后,都需要极为复杂的工程技术和计算资源支持。

长远来看,SemiAnalysis预计,各大实验室将在数百个专业领域上进行强化学习,以求大幅提升模型性能。

在此过程中,质量比数量更重要——因为模型会精确地拟合其训练数据。

因此,尽管最终用于训练的样本仅有4000个,但筛选出它们的过程却消耗了巨大的计算资源。

可以说,强化学习在数据层面是「样本高效」的,但在计算层面绝对是「样本低效」的。

这也就是为什么,与预训练相比,要有效地部署强化学习需要规模大得多的工程团队。

数据即护城河

总之,Qwen的案例表明:高质量数据是规模化应用RL的一种至关重要的资源。

高质量数据能为模型提供足够清晰的强化学习信号,使其能精确地提升完成特定任务的能力,而生成这类数据,往往需要海量的推理计算。

更广义地看,普通公司或企业可以整合自身数据,并利用 OpenAI 推出的强化微调(RFT)等服务。

RFT允许企业使用自定义的评分器,并根据评分结果或特定数据来更新模型。显然,这个功能目前被低估了,在未来它将产生深远的影响。

事实上,任何能够聚合或收集用户行为的产品都极具价值,因为用户行为数据最终构成了最重要的数据集。

由此,就能得到一个有趣的推论:拥有用户数据的AI初创公司,未来可以在不依赖庞大计算预算来合成数据的情况下,利用强化学习训练出自己的定制模型。

如果企业真能搭建起合适的强化学习环境,那么显然,一个为企业深度定制模型的时代就真的到来了。

而相比于基础模型势不可挡的发展步伐,单纯为企业进行微调的路线,如今基本已宣告失败。

AI智能体持续编码,7个月翻一番

模型现在能够长时间保持连贯性。

更长的任务需要长时间内稳定运行的环境和基础设施,这对工程的要求更高了。

下面的图表显示,独立编码任务的持续时间每7个月翻倍,预计非编码任务的翻倍速度会更快。

OpenAI的深度研究是第一个能连贯工作超过几分钟的模型,我们预计这个能力的上限会显著且快速提升。

这里存在一个矛盾。

智能体任务经济价值极高,但由于其复杂性和资源密集度,对强化学习(RL)提出了很高的挑战。

任务持续时间延长意味着每次强化学习迭代也需要更长的时间,而这会拖慢整个训练过程。

以计算机使用(Computer use)为例,很好地说明了长时程任务的许多问题。

首先,作为一种智能体任务,它更接近现实世界的问题和行为,这带来了新的挑战。

比如,在计算机使用中,智能体会遇到许多反机器人的网页脚本、验证码,以及复杂的Cloudflare保护功能。

这些问题会时不时就会出现。这样的细节给环境调试增加了之前不存在的复杂性。

此外,计算机使用需要大量的虚拟机(VM)和浏览器连接等基础设施,这些基础设施不仅要长时间稳定运行,还要满足之前提到的环境工程要求。

计算机使用任务通常会持续数小时。这意味着任务的执行时间变长,奖励变得稀疏。

换句话说,智能体可能多走十倍的步骤,但只有最后一步才会获得奖励,这使得强化学习的信号变得更弱。

不仅如此,计算机使用还依靠图像和视频来向模型展示正在发生的事情。

虽然有人尝试通过传输HTML文件或者设置网页的文本表示来实现计算机使用,但在这种情况下,模型不能理解图像的含义。

如果能让文本表示正常工作,将会大大降低计算机使用的内存需求。

来源:新智元一点号

相关推荐