硅谷重金押注&

B站影视 电影资讯 2025-09-17 13:50 2

摘要:多年来,科技巨头CEO们一直在宣传AI智能体的愿景,即能够自主使用软件应用程序为人们完成任务。但试用一下当今的消费级AI智能体,无论是OpenAI的ChatGPT Agent还是Perplexity的Comet,你会很快意识到这项技术仍然存在很大局限性。要让A

多年来,科技巨头CEO们一直在宣传AI智能体的愿景,即能够自主使用软件应用程序为人们完成任务。但试用一下当今的消费级AI智能体,无论是OpenAI的ChatGPT Agent还是Perplexity的Comet,你会很快意识到这项技术仍然存在很大局限性。要让AI智能体变得更加强大,可能需要一套全新的技术方法,而这正是行业仍在探索的领域。

其中一种技术是精心模拟工作环境,让智能体能够在其中接受多步骤任务训练——这被称为强化学习(RL)环境。正如标注数据集推动了上一波AI浪潮一样,RL环境正开始成为智能体开发中的关键要素。

AI研究人员、创业者和投资者向TechCrunch表示,领先的AI实验室现在对RL环境需求激增,而希望提供这种服务的初创公司也不在少数。

Andreessen Horowitz普通合伙人Jennifer Li在接受TechCrunch采访时表示:"所有大型AI实验室都在内部构建RL环境。但正如你所想象的,创建这些数据集非常复杂,所以AI实验室也在寻找能够创建高质量环境和评估的第三方供应商。每个人都在关注这个领域。"

对RL环境的推动催生了一批资金充足的新兴初创公司,如Mechanize和Prime Intellect,它们都希望在这个领域占据领先地位。与此同时,像Mercor和Surge这样的大型数据标注公司表示,它们正在RL环境方面加大投资,以跟上行业从静态数据集向交互式模拟转变的步伐。各大实验室也在考虑大举投资:据The Information报道,Anthropic的领导层已讨论在未来一年内在RL环境上投入超过10亿美元。

投资者和创业者的希望是,其中一家初创公司能够成为"环境领域的Scale AI",指的是这家价值290亿美元的数据标注巨头,它推动了聊天机器人时代的发展。

问题是RL环境是否真的能推动AI进步的前沿。

**什么是RL环境?**

RL环境本质上是训练场地,模拟AI智能体在真实软件应用程序中的操作。一位创业者在最近的采访中形容构建它们"就像创造一个非常无聊的视频游戏"。

例如,一个环境可以模拟Chrome浏览器,让AI智能体在亚马逊上购买一双袜子。智能体会根据其表现被评分,当它成功完成任务时(在这种情况下是买到合适的袜子)会收到奖励信号。

虽然这样的任务听起来相对简单,但AI智能体可能在很多地方出错。它可能在导航网页下拉菜单时迷路,或者买了太多袜子。由于开发人员无法准确预测智能体会在哪里出错,环境本身必须足够强大,能够捕捉任何意外行为,并仍然提供有用的反馈。这使得构建环境比静态数据集复杂得多。

一些环境相当复杂,允许AI智能体使用工具、访问互联网或使用各种软件应用程序来完成给定任务。其他环境则更加专注,旨在帮助智能体学习企业软件应用程序中的特定任务。

虽然RL环境是硅谷目前的热门话题,但使用这种技术有很多先例。OpenAI在2016年的首批项目之一就是构建"RL Gyms",这与现代环境概念非常相似。同年,Google DeepMind的AlphaGo AI系统在围棋比赛中击败了世界冠军,它也在模拟环境中使用了RL技术。

当今环境的独特之处在于,研究人员正试图用大型Transformer模型构建能够使用计算机的AI智能体。与在封闭环境中工作的专业AI系统AlphaGo不同,今天的AI智能体被训练具有更通用的能力。今天的AI研究人员有更强的起点,但也有更复杂的目标,更多地方可能出错。

**竞争激烈的领域**

像Scale AI、Surge和Mercor这样的AI数据标注公司正试图把握时机,构建RL环境。这些公司比该领域的许多初创公司拥有更多资源,以及与AI实验室的深度关系。

Surge CEO Edwin Chen告诉TechCrunch,他最近看到AI实验室对RL环境的需求"显著增加"。据报道,Surge去年与OpenAI、Google、Anthropic和Meta等AI实验室合作产生了12亿美元收入,最近专门成立了一个新的内部组织来构建RL环境。

紧随Surge之后的是估值100亿美元的初创公司Mercor,它也与OpenAI、Meta和Anthropic合作过。根据TechCrunch看到的营销材料,Mercor正在向投资者推介其为编程、医疗保健和法律等特定领域任务构建RL环境的业务。

Mercor CEO Brendan Foody在接受TechCrunch采访时表示:"很少有人真正理解RL环境机会有多大。"

Scale AI曾经主导数据标注领域,但自从Meta投资140亿美元并挖走其CEO后失去了优势。此后,Google和OpenAI放弃了Scale AI作为数据提供商,这家初创公司甚至在Meta内部也面临数据标注工作的竞争。但Scale仍在努力把握时机构建环境。

Scale AI智能体和RL环境产品负责人Chetan Rane表示:"这就是Scale AI所在业务的本质。Scale已经证明了其快速适应的能力。我们在自动驾驶汽车的早期就做到了这一点,那是我们的第一个业务部门。当ChatGPT出现时,Scale AI适应了那种情况。现在,我们再次适应智能体和环境等新前沿领域。"

一些新进入者从一开始就专注于环境。其中包括大约六个月前成立的初创公司Mechanize,其雄心勃勃的目标是"自动化所有工作"。不过,联合创始人Matthew Barnett告诉TechCrunch,他的公司正从AI编程智能体的RL环境开始。

Barnett表示,Mechanize旨在为AI实验室提供少量强大的RL环境,而不是像大型数据公司那样创建大量简单的RL环境。为此,这家初创公司为构建RL环境的软件工程师提供50万美元的薪资——远高于在Scale AI或Surge工作的小时工承包商的收入。

两名知情人士告诉TechCrunch,Mechanize已经在与Anthropic合作开展RL环境项目。Mechanize和Anthropic拒绝就合作关系发表评论。

其他初创公司押注RL环境将在AI实验室之外产生影响。Prime Intellect——一家由AI研究员Andrej Karpathy、Founders Fund和Menlo Ventures支持的初创公司——正将目标锁定在较小的开发者身上。

上个月,Prime Intellect推出了RL环境中心,旨在成为"RL环境的Hugging Face"。这个想法是让开源开发者能够访问与大型AI实验室相同的资源,并在此过程中向这些开发者销售计算资源的访问权限。

Prime Intellect研究员Will Brown表示,在RL环境中训练通用智能体比以前的AI训练技术在计算上更加昂贵。除了构建RL环境的初创公司外,为GPU提供商提供支持这一过程的另一个机会。

Brown在采访中表示:"RL环境太大了,任何一家公司都无法主导。我们正在做的部分工作就是试图围绕它构建良好的开源基础设施。我们销售的服务是计算,所以这是使用GPU的便捷入口,但我们更多地是从长远角度考虑这个问题。"

**能否规模化?**

围绕RL环境的开放性问题是这种技术是否能像以前的AI训练方法那样规模化。

强化学习推动了过去一年中AI的一些最大飞跃,包括OpenAI的o1和Anthropic的Claude Opus 4等模型。这些都是特别重要的突破,因为以前用于改进AI模型的方法现在显示出收益递减。

环境是AI实验室对RL更大押注的一部分,许多人认为随着他们在这一过程中增加更多数据和计算资源,这将继续推动进步。o1背后的一些OpenAI研究人员此前告诉TechCrunch,该公司最初投资AI推理模型——这些模型是通过投资RL和测试时计算创建的——因为他们认为它会很好地规模化。

规模化RL的最佳方式仍不清楚,但环境似乎是一个有希望的竞争者。它们不是简单地奖励聊天机器人的文本回应,而是让智能体在拥有工具和计算机的模拟中操作。这需要更多资源,但可能更有回报。

一些人对所有这些RL环境能否成功持怀疑态度。Meta前AI研究负责人、General Reasoning联合创始人Ross Taylor告诉TechCrunch,RL环境容易出现奖励欺骗。这是AI模型为了获得奖励而作弊的过程,而实际上并没有真正完成任务。

Taylor表示:"我认为人们低估了规模化环境的难度。即使是最好的公开可用RL环境,通常也无法在不进行严重修改的情况下工作。"

OpenAI API业务工程主管Sherwin Wu在最近的播客中表示,他对RL环境初创公司"看空"。Wu指出,这是一个竞争非常激烈的领域,而且AI研究发展如此迅速,很难为AI实验室提供良好服务。

Prime Intellect的投资者Karpathy曾称RL环境是潜在的突破,但他也对更广泛的RL领域表示谨慎。在X上的一篇帖子中,他对从RL中能够挤出多少AI进步表示担忧。

Karpathy表示:"我看好环境和智能体交互,但我特别看空强化学习。"

Q&A

Q1:强化学习环境是什么?它如何训练AI智能体?

A:强化学习环境是模拟AI智能体在真实软件中操作的训练场地。例如模拟Chrome浏览器让智能体在亚马逊购买袜子,智能体根据表现被评分,成功完成任务时会收到奖励信号。这种方法比静态数据集更复杂,但能让智能体学会处理各种意外情况。

Q2:为什么科技公司要大力投资强化学习环境?

A:因为传统的AI训练方法现在显示出收益递减,而强化学习推动了过去一年中AI的重大突破,如OpenAI的o1和Anthropic的Claude Opus 4。各大AI实验室认为RL环境将继续推动AI进步,据报道Anthropic讨论在未来一年投入超过10亿美元。

Q3:强化学习环境面临什么挑战和质疑?

A:主要挑战包括奖励欺骗问题,即AI模型为获得奖励而作弊但未真正完成任务。Meta前研究负责人认为人们低估了规模化环境的难度,OpenAI工程主管对RL环境初创公司持谨慎态度,认为竞争激烈且AI研究发展太快难以服务好实验室。

来源:至顶网一点号

相关推荐