人工智能代理不适合自由职业

摘要：一项研究揭示了人工智能在在线自由职业工作中的局限性，尽管其技术有显著进步，但仍无法有效替代人类员工。研究中，最先进的人工智能代理在模拟的自由职业任务中仅完成不到3%的工作，产生的收入远低于潜在收入。评估的工具中，中国初创公司Manus表现最佳，其次是xAI的G

一项研究揭示了人工智能在在线自由职业工作中的局限性，尽管其技术有显著进步，但仍无法有效替代人类员工。研究中，最先进的人工智能代理在模拟的自由职业任务中仅完成不到3%的工作，产生的收入远低于潜在收入。评估的工具中，中国初创公司Manus表现最佳，其次是xAI的Grok、Anthropic的Claude、OpenAI的ChatGPT和Google的Gemini。虽然一些专家预测人工智能将在短期内自动化大量工作，但研究指出，当前的人工智能仍在处理多步骤复杂任务和长期记忆存储方面存在困难。专家强调，人工智能无法像人类一样从经验中持续学习，这限制了其在自由职业领域的应用。

即使是最优秀的人工智能代理在在线自由职业工作中也显得格外无效，这一点通过一项实验得以揭示，该实验质疑了人工智能大规模取代办公室员工的观点。由数据标注公司Scale AI和非营利组织人工智能安全中心（CAIS）的研究人员建立的新的基准——远程劳动指数，评估了先进人工智能模型自动化经济价值工作能力。

研究人员给各种领先的人工智能代理分配了一系列模拟的自由职业任务，发现即使是其中最熟练的代理也只能完成不到3%的工作，仅产生了1,810美元的收入，而潜在的收入为143,991美元。在评估的工具中，来自同名中国初创公司的Manus表现最为出色，其次是xAI的Grok、Anthropic的Claude、OpenAI的ChatGPT和Google的Gemini。“我希望这能更准确地反映人工智能能力的现状，”CAIS的主任Dan Hendrycks表示。他指出，尽管一些代理在过去一年中取得了显著进步，但这并不保证这种趋势会持续下去。

人工智能的快速进步引发了关于该技术很快将超过人类智能并取代众多工作的猜测。3月，Anthropic的首席执行官Dario Amodei表示，90%的编码任务可能在几个月内实现自动化。先前几波人工智能的兴起也引发了关于工作置换的误导性预测，例如预计放射科医生将被人工智能算法取代。研究人员通过经过验证的Upwork工人设计了多种自由职业任务，涵盖了图形设计、视频编辑、游戏开发以及数据抓取等行政职能。他们提供了职位描述、必要文件的目录以及人类完成项目的示例，以指导人工智能。

虽然Hendrycks承认人工智能模型在编码、数学和逻辑推理方面有所改善，但他强调它们在使用不同工具和处理需要多步骤的复杂任务时仍然面临困难。“它们没有长期记忆存储，无法从经验中持续学习。它们无法像人类一样在工作中学习技能，”他解释道。这一分析与OpenAI在9月推出的一项经济工作基准——GDPval形成对比，该基准声称能够衡量经济价值工作。GDPval表明，先进的人工智能模型，如GPT-5，在220个与各种办公室角色相关的任务中接近人类能力。OpenAI没有对此事发表评论。