超强AI代理上线!OpenAI推出“Deep Research”,媲美研究分析师水平?

B站影视 2025-02-03 20:41 3

摘要:官方介绍,你给它一个提示,它就会自动查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告,仅需数十分钟就能完成人类需要数小时才能完成的工作。

大数据文摘受权转载自头部科技

文丨谭梓馨

在性价比推理模型o3-mini发布后不久,OpenAI创始人Sam Altman曾透露团队还准备了一个惊喜,网友好奇:到底什么是惊喜?

今天,第一个惊喜就抛出来了,OpenAI重磅发布了全新的ChatGPT代理功能:Deep Research(深度研究)。

官方介绍,你给它一个提示,它就会自动查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告,仅需数十分钟就能完成人类需要数小时才能完成的工作。

此外,深度研究由即将面世的OpenAI o3模型的一个版本驱动,借助推理功能,能够智能且广泛地浏览互联网上的文本、图像和PDF文件,并可根据遇到的信息做出必要调整。

Sam Altman将Deep Research称之为“一个疯狂的里程碑”、“一种超能力“,并表示这还不是o3-mini发布后提到的那个“one-more-thing”,惊喜还在后面。一夜之间,人类就要大步迈进AGI时代了么?

刷新AI代理智商高度

综合知识的能力是创造新知识的先决条件。OpenAI官方介绍说,深度研究是为从事金融、科学、政策和工程等领域密集知识工作并需要全面、精确和可靠研究的人员而打造的。

此外,它对于寻找高度个性化推荐的挑剔购物者同样有用,这些推荐通常需要仔细研究才能购买,例如汽车、家电和家具。

从即日起,ChatGPT Pro用户就可使用 “深度研究” 功能,每月限100次查询。随后Plus和Team用户也将获得该功能支持,企业用户会在之后跟进。并且,此次功能推出按地域进行,OpenAI尚未公布针对英国、瑞士及欧洲经济区ChatGPT用户的发布时间安排。

那么,深度研究的“智商”目前达到了什么程度?

“Humanity's Last Exam” (人类的终极测试)是由Scale AI和人工智能安全中心(CAIS)联合推出的针对AI的多模态基准测试,该评估在专家级问题上对广泛学科的人工智能进行了测试,包括各个学术领域的3000多个专家级问题,深度研究以26.6%的准确性创下了行业新高。

GAIA是一个针对现实世界问题评估AI的公共基准,深度研究达到了目前最先进水平 (SOTA)跃升榜首,该测试基准涵盖三个难度级别的问题,需要AI具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。

OpenAI展示了好多个实用场景,比如制作商业报告表格,大海捞针(根据片段场景描述找到影视剧出处),医学研究分析,用户体验设计,个性化需求购物推荐和常识的解读参考等等。

在对各个领域的专家级任务进行的内部评估中,人类专家们认为“深度研究”可以自动化完成数小时的艰难手动调查,但需要给AI更多的时间,此外,AI模型浏览的内容越多,对所浏览内容思考得越深入,其表现就越好。

下图为任务通过率与最大工具调用次数曲线,基本上是成正比的状态:

另一个有趣的发现是,任务的经济价值与通过率的相关性比与人类花费的小时数的相关性更高。也就是说,模型觉得困难的事情,和人类觉得耗时的事情并不完全相同。

OpenAI官方表示,深度研究现已在ChatGPT网页上推出,并将在本月内推广到移动和桌面应用,目前,深度研究可以访问开放网络和任何上传的文件,未来,则能够连接到更专业的数据源上(扩大其对基于订阅或内部资源的访问),从而使其输出更加可靠和个性化。

由于深度研究处于早期阶段,它也存在局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率低于现有的ChatGPT模型。

展望未来,OpenAI表示AI代理体验将融入ChatGPT用于异步、现实世界的研究和执行。深度研究(可执行异步在线调查)与Operator(可采取现实世界的行动)相结合,使ChatGPT能够执行越来越复杂的任务。

可预见的颠覆性

Sam Altman表示,深度研究功能计算密集且速度慢,可能需要5到30分钟才能完成一项任务,但它是第一个能够完成多种复杂、有价值任务的AI系统。

用他的话说性价比非常高:“投入50美分的计算成本,创造500美元的价值。”

杰克逊实验室教授、生物医学科学家Derya Unutmaz试用深度研究后表示:“从我的测试来看,它绝对改变了科学研究、出版、法律文件、医学、教育等领域的游戏规则。”

Derya Unutmaz介绍了自己抢先体验的一些用例,发现一些实在好处:AI比人类更有耐心,不会像人类那样经常抱怨;“深度研究”就像一个24/7全天候的助手,而且可以立即成为任何主题的专家,专业度甚至超越人类教授;他请“深度研究”协助处理两例癌症病例,生成的两份报告几乎无可挑剔,就像只有专科医生才能写出来的东西。

值得关注的是,谷歌在去年12月份推出Gemini 2.0 Flash模型的时候也介绍过一个名为“Deep Research”的类似AI代理功能,不过经网友对比发现OpenAI做到了更进一步。

谷歌的类似功能像是对众多信息源的汇总,而OpenAI的这个功能更像是让一位见解独到且能紧跟思路的研究员(近乎博士水平)来操作工作。

此外,谷歌的方法搜索性强(检查了更多的来源),但探索性较差,如果你想要一个概述,谷歌的版本可能还不错。但如果你想让AI深入细节研究,但又非常有主见,那你就可能需要OpenAI的Deep Research了。不过目前,他们都无法访问太多付费研究和出版物。

有人用OpenAI的深度研究功能去写专业级论文,效果也令人惊叹。多伦多大学罗特曼管理学院战略管理学副教授Kevin A. Bryan展示了一个案例,通过一次性提示,在无反复修改的情况下,“深度研究”经过10分钟创作完成一篇论文。

他感慨,鉴于技术的进步,AI已经不再是“抄袭引擎”,未来如何进行教育改革或是首要任务,因为人类与AI协作进行知识工作已成必然趋势。

OpenAI研究人员Jason Wei认为,深度研究不仅是一个令人惊叹的智能体,还可以被视为互联网的全新交互界面。我们正步入这样一个时代:原本人类需要花费数小时整理的任何信息,人工智能几分钟就能为你综合整理分析出谋划策。

无需再翻阅数百条评论来挑选酒店、餐厅或产品,AI会为我们评估所有维度相关信息;旅行时,我们能从网络的各个角落,甚至是小众论坛中获取最佳攻略。

对于任何新的科学构想,我们能迅速得到所有相关文献、相关理念以及可联系人员的清单。

这基本上就像是为用户想了解的内容量身定制的互联网,这种模式的商业潜力可能无比强大,以至于在未来,通过浏览器手动搜索整理资料会像用手进行算术而不使用计算器一样,成为 “老派” 做法。

布局AI硬件和芯片

除了AI模型和功能的更新,OpenAI今天也被媒体爆料出可能会进行人工智能专用硬件和芯片的开发,或许将是自2007年推出iPhone以来对技术硬件的又一轮颠覆。

Sam Altman在采访中回应称:“可能与苹果前首席设计官乔尼·艾维合作”、“人工智能对我们与计算机交互方式的改变非常大,应该有一种新的硬件”。

在半导体方面,当被问及OpenAI是否会开发自己的半导体时,Altman表示团队正在开发定制芯片,以提供更快、更高效的人工智能,但AI原型机或将需要“几年”时间才能面世,其中语音交互应该是一个关键功能。

类似于iPhone通过触摸屏彻底改变用户界面设计的方式,具备高智商的“专家级AI代理”相关硬件开发或将迎来一波历史性发展机会。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

来源:大数据文摘

相关推荐