OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

摘要：SemiAnalysis全新硬核爆料，意外揭秘了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o4将基于GPT-4.1训练，而背后最大功臣，就是强化学习。

编辑：编辑部 YZHN

【新智元导读】SemiAnalysis全新硬核爆料，意外揭秘了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o4将基于GPT-4.1训练，而背后最大功臣，就是强化学习。

OpenAI的o4，已经在训练了？

就在最近，SemiAnalysis发表了一篇硬核长文博客，爆料了不少大模型圈的内幕消息。

其中，一些最核心的亮点，先一睹为快：

OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型下一代推理模型o4将基于GPT-4.1展开RL训练强化学习改变了实验室结构，甚至是大厂未来研究的侧重方向和优先级定义奖励函数难上加难，往往AI钻空子之后，漏洞才能被发现不牺牲LLM任何性能，不用合并权重，RL另一条路——数据混合与预训练不同，RL可持续更新Scaling模型能力，DeepSeek-R1是典例高质量数据是Scaling强化学习的护城河训练小模型，蒸馏效果要比RL更好

新一轮预训练已开始

首先，让我们看看其中最硬的内容——关于OpenAI的全新模型。

因为现在星际之门超算还未建成，所以今年OpenAI的计算集群规模不会有显著增长，因此显然无法在算力上进一步扩大预训练规模。

不过，这并不意味着，OpenAI会停止预训练新模型。

如今，预训练已经比任何时候都更为重要。在不牺牲模型智能水平的前提下，哪怕只是小幅降低推理成本，都能极大节约开销，加快RL的反馈循环，催生更大的进步。

多个实验室的研究表明，中等规模模型的RL反馈循环速度已经超过了大型模型。

而如开头所提，OpenAI的新模型规模就在GPT-4.5和GPT-4/GPT-4.1之间。

随着RL规模的持续扩大，这些稍大的模型不仅会拥有更强的学习能力，MoE的稀疏度也会更高。

OpenAI o4要来了

而o4模型，就非常有望成为OpenAI在推理领域的下一款重磅产品。

可以说，o4标志着OpenAI策略的转变，核心原因就在于，他们更换了训练所用的基础模型。

因为基础模型决定了性能的下限，因此，用于进行RL的基础模型越好，最终效果也越好。

然而，要在模型强度和RL训练的实用性之间找到完美的平衡点，是非常棘手的事。

因为RL需要海量的推理计算和大量的序列采样，如果目标模型过于庞大，RL的成本将极其高昂。

此前，OpenAI一直在GPT-4o的基础上为o1和o3模型进行RL训练，但到o4时，情况将发生变化。

o4系列模型将基于GPT-4.1。

GPT-4.1的推理成本很低，同时具备强大的基准代码性能，无疑是未来推理产品的理想基础模型。

而且，GPT-4.1的实力显然被严重低估了——它非常实用，在Cursor上得到了广泛应用，为许多强大的新产品开启了大门。

目前，Anthropic已经在代码能力显出绝对优势，OpenAI显然也不甘落后。转向GPT-4.1，显然就是非常重要的一步行动。

虽然SWE-Bench这样的基准可以衡量模型能力，但最终的商业收入，还是要取决于定价策略。

在SemiAnalysis看来，Cursor的实际使用情况，才是检验模型应用价值的终极试金石。

推理模型大跃进，RL是最大功臣

如今，推理时Scaling的范式，正在蓬勃发展，推理模型也在快速进步。

在衡量现实世界软件工程任务（如SWE-Bench）的评估中，模型正在以更低的成本，获得更高的分数。

这背后的功臣，当然就是强化学习。它通过生成CoT，解锁了模型的推理能力。

此外，因为模型现在能够维持长时间的连贯思考，也就顺势解锁了AI智能体的潜力。

它们能胜任更复杂的计算机任务，比如全自动化的远程办公和系统工程/架构设计。

不过，在扩展强化学习算力上，整个基础设施都面临着新的瓶颈。

在AGI到来前，RL可能是我们需要的最后一个关键范式。

因为蕴含着巨大机遇，它所需的投资规模也同样庞大。现在，已经有十数亿美元资金投入，未来还会有更多。

不过，强化学习对于基础设施的要求，却是截然不同的。

我们究竟需要为此付出什么？

RL的工作原理

RL的概念很简单。

一个RL模型会从任意环境的当前状态中获取信息，为选择一个动作生成一组概率，然后执行该动作。

模型的目的，是达成一个由「奖励函数」定义的目标。

强化学习的过程，就是通过改变模型权重，使其更有可能生成那些能带来更高奖励的动作。

可以说，RL是一项古老的技术，比LLM出现得更早。当年战胜围棋与国际象棋冠军的系统背后，RL都是背后支柱。

不过直到最近，RL才终于成功应用于LLM。这对模型能力和普及，都产生了深远的影响。

可验证的奖励

在LLM中，RL在那些拥有可验证奖励的领域表现最佳。

这意味着，对于编码和数学这类任务，RL所必需的奖励函数有着明确的定义。而在那些奖励函数定义较为模糊的领域，推理模型就难以取得进步。

当OpenAI在GPT-4o的基础上通过RL训练出o1时，性能提升最显著的，也正是在这些拥有可验证奖励的领域。

我们都知道，OpenAI的o3可以放大图片，根据所见内容进行推理、计算、再次推理，最后给出答案。

因此，它识别照片拍摄地的超凡能力，惊艳了一大批网友。

最令人意外的是，o3模型并未针对这种任务进行过专门训练。

不过，跟预训练的投入相比，各大实验室投入在RL上的资金却并不多。

在这里，SemiAnalysis就提出了关键问题——

要让RL的计算资源投入追上甚至超过预训练，瓶颈何在？

那些奖励不可验证的领域，未来能否被攻克？

推理开销巨大

通过研究一种最流行的RL算法，我们能一窥其巨大的推理开销。

组相对策略优化（Group Relative Policy Optimization, GRPO）是一种常用算法，因为DeepSeek用它来训练R1模型而名声大噪。

在GRPO算法中，模型需要回答一个问题，并针对该问题生成多个候选答案。每个答案都可以看作一次「推演 (rollout)」，本质上是模型在尝试寻找解决方案。

针对每个问题的推演次数从几次到上百次不等，虽然没有技术上限，但推演次数越多，占用的内存和计算资源就越多。

由于每个问题都要生成海量答案，这使得RL成为一种推理密集型任务。这一点的影响尤其重大，因此将在后续部分被反复提及。

接下来，模型生成的答案会与一个标准答案进行比对评分。在GRPO中，每个答案都会获得一个奖励分数。

计算出奖励分数后，模型会通过梯度下降算法进行更新，以提高生成那些能获得正向奖励的答案的概率。

GRPO 是近端策略优化（PPO）的一种变体，它不需要PPO中的评论家模型（critic model），因此内存效率更高。

PPO和GRPO既可以采用学习出来的奖励模型，也可以使用基于规则的奖励系统来评判答案质量。

由于内存需求较低，GRPO在开源社区被广泛采用，但顶尖实验室应该大多会继续使用PPO的各种变体。

PPO由OpenAI 发明，其内部使用的版本与GRPO通常对标的公开版本已有实质性不同，而且这些实验室面临的计算资源限制也更少。

其核心思想在于，RL通常需要一个问题、一个用于核对的标准答案，以及一种向模型传递信号以指导其行为调整方向的机制。

模型探索答案的方式多种多样，但都要求以多次不同推演的形式生成多个候选答案，因此对推理端的资源要求很高。

随后，模型会被更新，以提高正确答案的出现概率，所以这个过程也隐含了训练的环节。

奖励函数难定

如前所述，强化学习在可验证奖励的领域已取得长足进步，原因之一在于这类任务的奖励函数很容易定义——例如，数学题的答案非对即错。

然而，从技术上讲，奖励函数可以是用户想要优化的任何目标。

从概念上讲，强化学习模型的主要目标是最大化总奖励。

以训练模型下国际象棋为例，首要目标就是在不违规的前提下赢得比赛。模型可以通过在不同棋局中学习哪些走法有助于获胜，来不断提升棋力，还能从所处环境中获得反馈。

不过，如果涉及到更宽泛的任务定义奖励，就更像是一门「玄学」了，因为它实在难以恰到好处地把握。

即便是在目标明确的环境中，要设定一个理想的奖励函数，也需要大量的研究、测试和优化。

芯片设计就是一个很好的例子。

谷歌为辅助芯片设计而开发的AlphaChip模型，就采用了强化学习训练。

这个模型协助设计了谷歌的TPUv6芯片，并成功将其线长（wirelength）缩短了 6.2%。在这个案例中，奖励函数被明确定义为：

这个函数引导模型去精确地最小化几个关键因素：线长、拥塞度和密度。

值得注意的是，即便是这样一个相对简单的奖励函数，其设置过程也绝非易事。拥塞度和密度都带有一个标量值（α和γ）来调整其权重。

这些数值是工程师们基于期望的权衡取舍，通过大量实验得出的最终结论，即线长是首要优化因素。

而在写作、策略规划这些领域，往往并不存在明确的标准答案，属于不可验证的领域。

曾有人怀疑：是否有可能在这些领域应用强化学习？SemiAnalysis认为，这完全可行，而且已经实现了。

要做到这一点并不难，只需要改变奖励机制：不再依赖形式化的验证器进行检查，而是利用其他模型，依据一套评分标准（rubric）来判断答案的优劣。

OpenAI正是使用强化学习来调整模型行为，这比数学问题更为抽象。

在关于审慎对齐（deliberative alignment）的论文中，OpenAI用了一个LLM作为「评判员」，并依据一套评分标准，通过强化学习来确保模型更安全、减少对无害请求的错误拒绝。

并且，这个过程完全使用的合成数据。

正如前文所述，他们还发现此方法「在分布外的安全场景中展现出强大的泛化能力」。

因此，这种方法已被用于训练o1、o3-mini和o4-mini，还会继续应用于未来的推理模型。

推理能力不仅对解决数学问题至关重要，对于那些不可验证的任务也大有用处。

比如在很多情况下，更强的推理能力能帮助模型更好地判断何时应该拒绝用户的请求。

但不可否认，在不可验证领域，某些因素的影响会更大，比如模型的「个性」会极大影响其写作风格。

此外，应用于不可验证领域的强化学习也更加多变。

比如之前被热议的GPT-4o「谄媚」行为，部分原因就是OpenAI基于用户偏好数据进行强化学习的结果。

这就说明，一个本意良好的奖励函数，也可能会导致不良行为。

o3善用工具，核心在这儿

o3模型已清晰地展示了强化学习的有效性，尤其是对外部工具的高级运用上。

o3的表现证明：拥有智能固然重要，但能够接触并善用工具则更为关键。

为了实现这一能力，OpenAI采取了几个关键措施。

首先，要确保模型能接入工具。这可以作为更广泛基础设施的一部分来实现（例如，让模型能访问特定环境）。

在模型层面，工具的调用可以通过特殊的Token来触发。

例如，让模型使用像这样的特殊Token来启动外部搜索，搜索结果以结构化的形式返回，可直接用于其推理过程。

通过赋予模型访问多种不同特殊Token的能力，它便能快速便捷地接入不同的环境。

另一项核心挑战在于，该选择恰当的问题集进行训练？

即便模型能访问工具，如果问题本身并不需要，它也可能选择完全不使用。

因此，为了有效地训练模型，需要提供足够困难、必须借助工具才能解决的问题，从而确保模型学会自然地利用外部资源。要把握好这个度非常困难，需要大量测试来验证。

同时，过度使用工具也可能降低性能，使奖励信号变得复杂，从而影响整体效果。

其他关键因素还包括：确保每次「推演」都有丰富的初始状态，且每个起点都能生成多种响应，以提升稳定性和学习效率；对格式错误的输出施加惩罚；以及对正确使用的标签给予奖励。

总而言之，打造一个o3级别的模型，关键在于两点——

一是通过特殊Token等方式，为模型提供访问多种工具的权限；二是在那些能「迫使」模型使用这些工具的问题上进行训练。

变相奖励，o3幻觉严重

尽管在信息查找和研究方面能力出众，o3却因其严重的幻觉问题而饱受诟病。

它会频繁地无中生有，并且随着rl计算规模的增加，这个问题甚至变得更加严重。这究竟是为什么？

高级分析师认为，这归根结底在于这些模型的训练方式。

模型通常只因最终结果正确而获得奖励，其推理过程是否正确却不被考量，这使得它们能够通过有缺陷的逻辑「蒙混过关」，得到正确答案。

比如，一个模型即便误解了规则，也可能在一个简单的棋盘游戏中获胜，从而错误地认为其有缺陷的推理是可接受的。

这种机制不仅没有惩罚模型的错误思维，反而对其进行了变相的奖励。

SemiAnalysis推测，这种情况不仅限于棋盘游戏。

这无意中让模型学会在新的、未经训练的场景中产生幻觉，将有缺陷的推理能力泛化到更广泛的领域。

让推理更强模型作为评判员，能起到一定效果，因为它们可以纠正整个推理链（reasoning trace）。

其他的思路包括，设计更精细的奖励信号，比如对每个输出Token给予不同奖励，从而在奖励正确答案的同时，惩罚不正确的逻辑。

需要明确的是，这种不当的奖励行为也会影响到代码生成等任务。

一个模型可能编写出质量很差的代码，却依然能通过单元测试。这更加凸显了设计正确奖励函数的必要性。

AI自进化，用RL优化RL

强化学习不仅能提升LLM性能，还能优化自身，形成一个良性循环。

这种「RL优化RL」的方式，依赖于大语言模型评判员（LLM-Judge）和评分标准（rubric），来提供强化学习信号。

当一个推理能力更强的模型被用作评判员时，它能更好地理解评分标准，并从其他模型的回答中识别出更细微的差别。

比如，OpenAI的Deep Reaearch项目中，展示了RL如何推动不可验证领域的进步，成为了一个典范。

无论是可验证任务，还是不可验证的任务，OpenAI都通过另一个LLM依据评分标准进行评判。

同样，Qwen-3也采用了类似的方法，利用海量合成数据结合LLM-Judge，在没有参考答案的情况下提供学习信号。

SemiAnalysis认为，「评分标准」这种模式为许多领域开启了新的可能性。

再比如，OpenAI曾邀请超260名医生来编写评估标准——HealthBench ，用于评估模型在医疗问答任务中的表现。

作为公开的评估标准，HealthBench反映出LLM-Judge，在衡量那些奖励不可验证的任务性能方面非常强大。

一旦性能可以被衡量，它就可以通过强化学习来提升。

这突显了RL与评估之间一种被低估了的关系——后者能够清晰地揭示RL的训练进展和效果。

「递归自我改进」已经展开

上面提到，通过让更强的模型在强化学习中担任更出色的评判员，可以实现自我改进。

但这里还有另一个重要维度值得考量：让模型本身来帮助训练和编写下一个模型。

Anthropic在其Claude 4的系统卡片中，就具体展示了顶尖实验室的这种思考。他们对编译器开发、内核工程，甚至是一个四足机器人的强化学习任务都进行了评估。

事实上，目前各大实验室所做的，正是那些旨在榨干硬件每一分性能的、艰难的工程工作。

编译器、内核、内存管理优化、超参数调优等等，这些都是可以被量化和改进的编程任务，并且每一项都对模型的效率有着巨大影响。

「递归自我改进」常常被描述成一个听起来充满诱惑、前景宏大的术语，但现实是，它在一定程度上已经发生。

实验室还可以通过针对这些具体任务进行强化学习来持续加码，并拥有大量专攻于此的内部模型变体。

这种自我改进最初将主要围绕那些不易察觉的、繁重枯燥的底层工作，然后逐步渗透到新模型架构的研究中去。

当前的模型还无法极大地加速开发进程。

但OpenAI的Codex工具已经在帮助员工构建下一个版本的模型。

理解自我改进的关键在于，模型将让工程师们花更少的时间在编码上，从而能投入更多时间去思考研究和数据等核心问题。只要模型开发的瓶颈在于工程投入，这些瓶颈终将被化解。

不过，现实中的模型开发还受制于计算资源等多种因素。

真正的递归自我提升将显著加速研究与数据进程。

环境

要进行强化学习，就需要对某个行为或结果进行「强化」。

实现这一点前提是，模型/AI智能体必须在一个「环境」中，获得反馈，从而理解下一步该采取什么行动。

这催生了「强化学习执行反馈」（Reinforcement Learning from Execution Feedback, RLEF）的出现，即在环境中运行模型生成的代码，并将执行结果作为奖励信号。

所谓「环境」，就是模型采取行动并接收反馈的场景或模拟系统，比如国际象棋、围棋棋盘游戏，便是环境的绝佳范例。

它们目标明确，规则清晰。

随着通用性的提升，AI进入了更广阔的领域，比如在电子游戏中赛车，或在生物反应器模拟中控制一组特定参数。

在此之外，它们还会遇到数学、编程甚至浏览器，这样更为开放的环境。

环境的配置不同，可能导致AI智能体的行为大相径庭。

若环境配置不当，可能使模型误解任务或无法正确地泛化其能力，会导致「奖励黑客」（reward hacking）。

也就是说，模型在此学会了钻函数的空子，并非真正去完成任务。

比如，一个注重通过单元测试的编程环境，可能导致模型专注于「应付测试」，而非编写出高质量代码。

因此，构建一个稳健的环境，并确保其奖励函数能够精确反映预期目标，是一项极其困难的工程挑战。

一个合格的环境需要满足诸多要求。

延迟就是其中一个关键因素，延迟过高可能会导致资源浪费，「推演」（rollout）效率低下。

其他考量还包括：连接必须持续可靠，避免系统崩溃中断进程；同时需要设置容错机制和检查点机制，确保故障能被平稳处理；还必须能够妥善处理多个并行的推演或轨迹。

除此之外，还需要一整套安全基础设施作为支撑，以保护模型免遭外部渗透，或防止其试图「逃离」环境。

模型本身的一些失误模式也让问题变得复杂，比如它可能会采取耗尽机器资源的行动。

同时，环境必须能准确地模拟真实场景，让智能体明白该从何处改进，并且要杜绝被智能体黑客利用的可能性。

所有这些要求，使得环境的规模化变得异常困难，尤其是初次尝试时。

尽管基础设施工程看似平淡无奇，但它对强化学习的成功至关重要。如果推演过程耗时过长，用于验证的模型就会闲置，造成资源浪费。

因此，如何让这些模型在等待期间执行其他任务，比如评判另一个LLM推演结果，就成了一个重要问题。

这些软件层面的限制，还必须与硬件层面的约束相适配，比如多数环境在CPU而非GPU上运行，进一步增加了工程复杂性。

更重要的是，环境必须放置模型利用漏洞。

像o3这类模型，是基于支持多次工具调用的复杂环境，随着工具调用增加，环境复杂度也随之上升，带来了一系列新挑战。

奖励黑客

如前所述，设定一个恰当的奖励可能非常困难，因为模型可能会误解目标，并以一种不理想的方式进行优化。

当模型利用环境或奖励结构中的漏洞，在并未真正完成预期任务的情况下获得高分时，就发生了「奖励黑客」（Reward Hacking）。

早在2016年，现Anthropic创始人Dario Amodei就指出了「奖励黑客」这一问题。

举个例子，一个机械臂的任务是将红色积木叠在蓝色积木上方，并以此获得奖励。

但在演示中，它直接翻转倒置了红色积木，并非按照堆叠方式完成任务，钻了奖励的空子。

这便是因为，奖励的评判标准仅仅是红色积木底面的高度。

另一个失败模式的例子是，在教机器人行走的物理模拟中，一个智能体发现了软件漏洞——

完全不用迈步，水平移动也可以，实属有点6。

在LLM案例中，Claude 3.7 Sonnet也表现出了奖励黑客行为：修改测试用例，而非改进自身代码来通过原始测试。

Anthropic虽采取了部分缓解措施，但这种行为模式在Claude 3.7中依然存在。

尽管这些案例听起来有趣，但真正的问题在于：

工程师们往往无法精确地定义奖励函数，而且往往是在AI智能体已经利用了环境中的漏洞之后，他们才能发现。

也就是说，许多奖励黑客的路径，都是设计者从未设想过的。

虽然在训练过程中可以迭代修正，但这对于LLM来说却异常困难。

机器人的环境目前尚处于起步阶段，调整起来相对容易，但LLM拥有巨大而复杂的行动空间，使得防止奖励黑客变得难上加难。

因此，解决奖励黑客问题是所有顶尖实验室的重中之重，这需要借鉴许多来自安全与对齐团队的想法。

在Claude 4中，Anthropic通过改进环境、明确奖励信号和实施主动监控，显著减少了奖励黑客行为。这绝非易事，需要大量的专业知识和实践经验。

然而，强化学习和奖励黑客并非唯一的瓶颈，基础设施本身也是一个巨大的瓶颈。而这个瓶颈始于强化学习所需的数据。

数据与样本效率

乍一看，强化学习的样本效率似乎很高。

在训练Qwen模型的「推理强化学习」阶段，研究者仅用了不到4000组问答对，就实现了相较于基础模型的显著性能提升，并因此声称其样本效率极高。

然而，实际情况要复杂得多。

因为4000组问答对中的每一组，都必须满足极其严苛的条件：不能是模型冷启动阶段已经用过的数据；必须尽可能地有挑战性，覆盖广泛的细分领域，同时又要恰好在模型当前的能力范围之内。

要满足这些要求绝非易事。

生成合适的合成数据，需要经历大量的筛选和反复的模型推理。

此外，要确保问题「有挑战性但又不过于困难」，这本身就需要通过实验和验证，以确认问题难度恰好落在那个狭窄的区间内。

在某些无法通过合成数据生成的场景中，实验室甚至需要招聘STEM领域的博士，来专门为模型编写足够有挑战性的问题和答案。而他们的另一项工作，就是为LLM评判员编写可供参考的评分标准。

这也就是为什么，像ScaleAI、Mercor和Handshake这样的招聘和数据服务公司，能从各大AI实验室获得源源不断的业务，赚得盆满钵满。

此外，Qwen模型还进行了另一阶段的强化学习，而他们没有公布这一阶段所用的样本数量，因为这个数字远不止4000。

在后续阶段，他们在超过20个不同领域进行了强化学习，并且同时使用了所有三种类型的奖励模型（基于规则的、有标准答案的 LLM-Judge、以及无标准答案的 LLM-Judge）。

这背后，都需要极为复杂的工程技术和计算资源支持。

长远来看，SemiAnalysis预计，各大实验室将在数百个专业领域上进行强化学习，以求大幅提升模型性能。

在此过程中，质量比数量更重要——因为模型会精确地拟合其训练数据。

因此，尽管最终用于训练的样本仅有4000个，但筛选出它们的过程却消耗了巨大的计算资源。

可以说，强化学习在数据层面是「样本高效」的，但在计算层面绝对是「样本低效」的。

这也就是为什么，与预训练相比，要有效地部署强化学习需要规模大得多的工程团队。

数据即护城河

总之，Qwen的案例表明：高质量数据是规模化应用RL的一种至关重要的资源。

高质量数据能为模型提供足够清晰的强化学习信号，使其能精确地提升完成特定任务的能力，而生成这类数据，往往需要海量的推理计算。

更广义地看，普通公司或企业可以整合自身数据，并利用 OpenAI 推出的强化微调（RFT）等服务。

RFT允许企业使用自定义的评分器，并根据评分结果或特定数据来更新模型。显然，这个功能目前被低估了，在未来它将产生深远的影响。

事实上，任何能够聚合或收集用户行为的产品都极具价值，因为用户行为数据最终构成了最重要的数据集。

由此，就能得到一个有趣的推论：拥有用户数据的AI初创公司，未来可以在不依赖庞大计算预算来合成数据的情况下，利用强化学习训练出自己的定制模型。

如果企业真能搭建起合适的强化学习环境，那么显然，一个为企业深度定制模型的时代就真的到来了。

而相比于基础模型势不可挡的发展步伐，单纯为企业进行微调的路线，如今基本已宣告失败。

AI智能体持续编码，7个月翻一番

模型现在能够长时间保持连贯性。

更长的任务需要长时间内稳定运行的环境和基础设施，这对工程的要求更高了。

下面的图表显示，独立编码任务的持续时间每7个月翻倍，预计非编码任务的翻倍速度会更快。

OpenAI的深度研究是第一个能连贯工作超过几分钟的模型，我们预计这个能力的上限会显著且快速提升。

这里存在一个矛盾。

智能体任务经济价值极高，但由于其复杂性和资源密集度，对强化学习（RL）提出了很高的挑战。

任务持续时间延长意味着每次强化学习迭代也需要更长的时间，而这会拖慢整个训练过程。

以计算机使用（Computer use）为例，很好地说明了长时程任务的许多问题。

首先，作为一种智能体任务，它更接近现实世界的问题和行为，这带来了新的挑战。

比如，在计算机使用中，智能体会遇到许多反机器人的网页脚本、验证码，以及复杂的Cloudflare保护功能。

这些问题会时不时就会出现。这样的细节给环境调试增加了之前不存在的复杂性。

此外，计算机使用需要大量的虚拟机（VM）和浏览器连接等基础设施，这些基础设施不仅要长时间稳定运行，还要满足之前提到的环境工程要求。

计算机使用任务通常会持续数小时。这意味着任务的执行时间变长，奖励变得稀疏。

换句话说，智能体可能多走十倍的步骤，但只有最后一步才会获得奖励，这使得强化学习的信号变得更弱。

不仅如此，计算机使用还依靠图像和视频来向模型展示正在发生的事情。

虽然有人尝试通过传输HTML文件或者设置网页的文本表示来实现计算机使用，但在这种情况下，模型不能理解图像的含义。

如果能让文本表示正常工作，将会大大降低计算机使用的内存需求。

来源：新智元一点号

标签：模型 openai 长文 o4 o4核心

本文地址：http://news.43b.com.cn/a/580027.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐