ScaleAI、Surge等:强化学习环境竞争激烈,前景待察

B站影视 日本电影 2025-09-17 08:48 1

摘要:【科技巨头宣扬多年的AI智能体愿景在实际应用中局限性明显,强化学习环境或成推动其发展关键,但该技术能否规模化发展仍存争议】多年来,科技巨头们一直鼓吹AI智能体的愿景,这类智能体可自主运用软件应用为人类完成任务。然而,如今将消费者级AI智能体投入实际使用时,会发

【科技巨头宣扬多年的AI智能体愿景在实际应用中局限性明显,强化学习环境或成推动其发展关键,但该技术能否规模化发展仍存争议】多年来,科技巨头们一直鼓吹AI智能体的愿景,这类智能体可自主运用软件应用为人类完成任务。然而,如今将消费者级AI智能体投入实际使用时,会发现这项技术的局限性十分显著。要让AI智能体具备更强的稳健性,或许需要一系列行业尚未完全探索出的新技术支持。其中一项技术是精心模拟“工作空间”,让智能体在其中接受多步骤任务训练,这种“工作空间”被称作强化学习(reinforcement learning,简称RL)环境。如同带标签的数据集推动了上一波AI发展浪潮,强化学习环境正逐渐成为智能体开发过程中的关键因素。AI研究人员、创业者及投资者透露,目前顶尖AI实验室对强化学习环境的需求大幅攀升,而有意提供此类技术的初创公司也不少。安德森?霍洛维茨基金普通合伙人珍妮弗?李称:“所有大型AI实验室都在内部搭建强化学习环境。但可想而知,创建这类数据集的复杂度极高,所以AI实验室也在寻找能打造高质量环境与评估体系的第三方供应商,整个行业都在关注这一领域。”对强化学习环境的需求催生了一批资金雄厚的新兴初创公司,像MechanizeWork和PrimeIntellect,这些公司都致力于在该领域占据领先地位。与此同时,Mercor、Surge等大型数据公司,Anthropic的管理层已讨论计划在未来一年内,为强化学习环境投入超10亿美元。投资者与创业者期望,这些初创公司中能诞生出“强化学习环境领域的ScaleAI”,ScaleAI是估值290亿美元的数据标注巨头,曾为聊天机器人时代的发展提供重要支撑。目前的核心问题是,强化学习环境是否真能推动AI技术突破现有边界。从本质上讲,强化学习环境是模拟AI智能体在真实软件应用中操作场景的“训练场”。一位创业者形容其构建过程“就像制作一款非常枯燥的电子游戏”。例如,某个环境可模拟Chrome浏览器,并向AI智能体下达“在亚马逊上购买一双袜子”的任务。系统会对智能体的表现进行评分,若完成任务,便会向其发送“奖励信号”。尽管这类任务听起来相对简单,但AI智能体在执行过程中仍可能在多个环节出错,可能在网页下拉菜单中“迷路”,也可能误购多双袜子。由于开发者无法精准预测智能体可能出现的失误,环境本身必须具备足够的稳健性,既能捕捉所有意外行为,又能提供有效的反馈,这使得构建环境的复杂度远高于创建静态数据集。部分强化学习环境设计十分复杂,可支持AI智能体使用工具、访问互联网或调用各类软件应用完成指定任务;另有部分环境则定位更细分,专注于帮助智能体学习企业级软件应用中的特定任务。尽管强化学习环境如今是硅谷的热门技术,但使用这类技术的先例早已有之。2016年,OpenAI的首批项目之一便是构建“RLGyms”,其理念与现代强化学习环境高度相似;同年,谷歌DeepMind的GoAI系统击败围棋世界冠军,该系统同样在模拟环境中采用了强化学习技术。如今的强化学习环境之所以独特,在于研究人员正尝试结合大型Transformer模型,打造能“使用计算机”的AI智能体。与Go不同,如今的AI智能体旨在具备更通用的能力。当前的AI研究人员虽拥有更坚实的技术起点,但目标也更为复杂,可能出现的问题也更多。ScaleAI、Surge、Mercor等AI数据标注公司正积极顺应趋势,着力打造强化学习环境。这些公司不仅比该领域多数初创企业拥有更充足的资源,还与AI实验室建立了深厚的合作关系。Surge的埃德温?陈表示,近期已观察到AI实验室对强化学习环境的需求“显著增长”。他透露,Surge去年通过与OpenAI、谷歌、Anthropic、Meta等AI实验室合作,营收据称达到12亿美元;该公司近期已成立专门的内部团队,负责强化学习环境的搭建工作。紧随Surge之后的是估值100亿美元的初创公司Mercor,该公司同样与OpenAI、Meta、Anthropic有合作。营销材料显示,Mercor正向投资者推介其核心业务——为编程、医疗、法律等特定领域任务打造强化学习环境。Mercor的布伦丹?富迪称:“很少有人真正意识到,强化学习环境领域蕴含的机遇究竟有多大。”ScaleAI曾在数据标注领域占据主导地位,但自Meta投资140亿美元并挖走其人员后,该公司的市场份额逐渐下滑。此后,谷歌和OpenAI不再将ScaleAI列为数据供应商,甚至在Meta内部,ScaleAI也面临数据标注业务的竞争压力。尽管如此,ScaleAI仍在努力适应趋势,投身强化学习环境的构建。ScaleAI负责智能体与强化学习环境的产品负责人切坦?拉内表示:“这正是所处行业的本质,Scale已证明其快速适应的能力:在我们的首个业务板块——自动驾驶领域的早期阶段,我们做到了这一点;ChatGPT问世后,ScaleAI也适应了新趋势;如今,我们再次在智能体、环境等新前沿领域进行调整。”部分新兴企业从创立之初便专注于强化学习环境领域。成立约6个月的初创公司MechanizeWork便是其中之一,该公司提出了“实现所有工作自动化”的大胆目标。不过,联合创始人马修?巴尼特透露,其公司目前正从为AI编程智能体打造强化学习环境起步。巴尼特表示,MechanizeWork计划为AI实验室提供少量高稳健性的强化学习环境,而非像大型数据公司那样打造大量简单的强化学习环境。为此,该初创公司为软件工程师开出了50万美元的年薪,这一薪资远高于在ScaleAI或Surge从事小时工性质工作的报酬。,MechanizeWork已开始与Anthropic合作开发强化学习环境。对此,MechanizeWork与Anthropic均拒绝就合作细节置评。另有部分初创公司押注强化学习环境在AI实验室之外的领域也将产生影响力。由AI安德烈?卡帕西、FoundersFund风投、MenloVentures风投支持的初创公司PrimeIntellect,正将其强化学习环境定位为服务中小型开发者。上个月,PrimeIntellect推出了强化学习环境中心,目标是打造“强化学习环境领域的HuggingFace”(HuggingFace为AI领域知名平台)。该平台旨在让开源开发者获得与大型AI实验室同等的资源支持,同时在此过程中向开发者出售计算资源访问权限。PrimeIntellect的威尔?布朗表示,在强化学习环境中训练具备通用能力的智能体,所需的计算成本可能高于以往的AI训练技术。因此,除了打造强化学习环境的初创公司,为这一过程提供算力支持的GPU供应商也将迎来机遇。布朗称:“没有任何一家公司能独自主导强化学习环境领域,其规模太大了。我们目前所做的部分工作,只是尝试围绕该领域搭建良好的开源基础设施。我们的核心服务是提供计算资源,这确实是使用GPU的便捷入口,但我们更着眼于长期发展。”关于强化学习环境,目前尚未有定论的问题是:这项技术能否像以往的AI训练方法那样实现规模化发展?过去一年,强化学习推动了AI领域多项重大突破,包括OpenAI的o1模型、Anthropic的ClaudeOpus4模型等。这些突破意义重大,因为此前用于改进AI模型的方法如今正显现出“收益递减”的趋势。强化学习环境是AI实验室对强化学习技术“更大押注”的一部分,许多人认为,随着在该技术中投入更多数据与计算资源,强化学习将持续推动AI进步。OpenAI负责o1模型的部分研究人员此前透露,该公司最初之所以投资AI推理模型,正是因为他们认为这类模型具备良好的规模化潜力。目前,强化学习实现规模化的最佳路径尚不明确,但强化学习环境似乎是颇具潜力的方向。与仅通过文本回复奖励聊天机器人不同,强化学习环境能让智能体在模拟场景中操作工具、使用计算机完成任务,这种方式虽然对资源的消耗远更高,但潜在的回报也更大。也有部分人士对强化学习环境的发展前景持怀疑态度。曾担任MetaAI研究负责人、现联合创立GeneralReasoning公司的罗斯?泰勒表示,强化学习环境容易出现“奖励作弊”现象,即AI模型为获得奖励而“作弊”,并未真正完成任务。泰勒说:“我认为人们低估了环境规模化的难度,即便是目前公开可用的最佳环境,若不

本文由 AI 算法生成,仅作参考,不涉投资建议,使用风险自担

来源:和讯网

相关推荐