摘要:近期,OpenAI 推出了几款旨在简化AI Agent开发的全新工具和API,进一步推动了AI技术在实际场景中的应用。尽管过去一年中推出的高级推理和多模态交互模型为Agent的发展奠定了坚实的基础,但在构建生产级别的Agent过程中,开发者仍面临诸多挑战。
OpenAI 发布全新工具套件,助力高效构建 AI Agent
近期,OpenAI 推出了几款旨在简化AI Agent开发的全新工具和API,进一步推动了AI技术在实际场景中的应用。尽管过去一年中推出的高级推理和多模态交互模型为Agent的发展奠定了坚实的基础,但在构建生产级别的Agent过程中,开发者仍面临诸多挑战。
为了应对这些挑战,本次发布的核心产品包括全新的Responses API、三种内置工具及一个开源的Agents SDK。
新增工具详解
首先,Responses API将Chat Completions API的简洁性和Assistants API的强大工具使用能力相结合,成为构建Agent应用的新基石。这种整合不仅提高了效率,还增强了API的实用性。
其次,新增的Web搜索工具支持GPT-4o和GPT-4o-mini模型,使AI能够访问互联网获取最新信息并提供清晰的引用。在SimpleQA基准测试中,这两个模型的搜索预览版分别取得了90%和88%的高准确率。
与此同时,升级后的文件搜索工具具备多种文件格式支持能力,并且能够优化查询、过滤元数据、自定义排序,从而帮助开发者迅速找到所需的关键信息。
计算机使用工具则由与Operator相同的Computer-Using Agent (CUA)模型提供支持,该工具能够捕获模型生成的鼠标和键盘操作。在OSWorld、WebArena和WebVoyager基准测试中,该模型分别取得了38.1%、58.1%和87%的成绩。
开源框架Agents SDK
此外,OpenAI还推出了开源的Agents SDK,旨在简化多Agent工作流程的编排。相比去年发布的实验性Swarm框架,新版SDK在配置LLM与内置工具集成、智能交接控制、安全检查以及可视化追踪等方面都有了显著改进,适用于客户支持自动化、多步研究、内容生成等多种应用场景。
实际应用案例
一些早期测试用户已成功利用这些新工具实现了一系列成果。例如,Hebbia借助Web搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan将文件搜索工具应用于AI旅行Agent中,为用户提供精准的旅行政策答案;Unify和Luminai则使用计算机使用工具自动化复杂操作流程,尤其是对缺乏API的传统系统;Box利用Agents SDK快速构建和部署了企业数据搜索应用。
社区反响
在产品发布后,网友们纷纷在OpenAI的评论区发表看法,甚至有人特意感谢Manus AI。而在凌晨1点的直播演示中,一个“个人造型师”Agent的应用案例展示了新工具的多样化功能。例如,通过文件搜索工具查看用户的服装喜好数据,系统可以轻松整理出这些人的穿衣风格;结合Web搜索工具,系统能够根据用户所在位置搜索附近的商店,为用户推荐合适的店铺;计算机使用工具则自动操作网页界面,完成购买操作,整个过程流畅自如。此外,Agent间的交接功能也得到了充分展示,一个Agent将退货请求无缝交接给客服Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成退货流程。
未来展望
OpenAI表示将继续全力支持Chat Completions API,为不需要内置工具的开发者提供新模型和功能。而基于Assistants API测试版的反馈,他们已经将关键改进整合到Responses API中,计划在功能对齐后,于2026年中期正式停用Assistants API,并提供详细的迁移指南。
新工具的定价也已公布,Web搜索每千次查询分别为GPT-4o搜索30美元和GPT-4o-mini搜索25美元;文件搜索每千次查询2.5美元,文件存储0.1美元/GB/天(首GB免费);计算机使用工具则按每输入百万token/3美元和每输出百万token/12美元计费。
OpenAI表示,随着模型能力的不断提升,他们会继续深化API间的整合,并提供新工具帮助部署、评估和优化生产环境中的Agent。英伟达CEO黄仁勋曾表示,未来每个公司的IT部门将转变为AI Agent的“HR部门”。从管人到管AI,Agent将成为劳动力的重要组成部分,提高各行业的生产力。
用户问答
Q:哪种操作系统最适合computer use?是图形界面(UI)、终端(terminal),还是其他方式更好?哪些应用程序在计算机上表现最佳,还是说这并不重要? A:CUA模型主要是针对网页任务进行训练的,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段,我们还有很多可以改进的地方!
Q:你们会提供TypeScript SDK吗? A:是的!我们很快会推出TypeScript SDK,敬请期待!
Q:我们未来会在API中看到o1 pro吗? A:是的,我们计划很快在responses API中发布它!
Q:我们需要自行管理Docker环境来使用计算机功能吗? A:如果你愿意,你可以自行管理Docker环境,但你也可以使用云服务,比如@browserbasehq或@scrapybara。
Q:何时会有Operator在API中可用? A:从今天开始,你可以在API中使用与Operator相同的功能!我们已经在新的Responses API中部署了驱动Operator的CUA模型。
Q:你们会考虑提供集成的虚拟机(VM)来支持“computer use”,或者与合作伙伴合作,以减少搭建环境的需求吗? A:目前还没有这样的计划,但你可以查看CUA示例应用,其中包含一些示例环境,包括@scrapybara和@browserbasehq,用于远程托管。
Q:在整个agent-handoff流程中,如何确保个人隐私?有没有什么方法可以增强用户与Agent交互时的隐私保护? A:我们有多种隐私保护机制。Agents SDK支持开发者定义的安全措施(guardrails),用于输入/输出验证。此外,你可以使用input_filter来限制在交接过程中传递的消息上下文。
来源:兔兔科技