OpenAI“深度研究”功能上线,HLE测试准确率超DeepSeek R1,AI研究能力再突破

B站影视 2025-02-03 14:00 2

摘要:在科技日新月异的今天,人工智能领域再次迎来重大突破。北京时间2月3日上午,OpenAI正式推出了一款名为“深度研究”(Deep Research)的智能体产品,专为深度研究领域打造,旨在大幅提升专业研究报告的生成效率。

在科技日新月异的今天,人工智能领域再次迎来重大突破。北京时间2月3日上午,OpenAI正式推出了一款名为“深度研究”(Deep Research)的智能体产品,专为深度研究领域打造,旨在大幅提升专业研究报告的生成效率。

这款创新产品能够自主分析复杂的专业信息,实时查找并综合数百个在线资源,最终生成一份专业水准的完整报告。以往,一位经验丰富的行业分析师可能需要花费数天甚至数周的时间才能完成这样的任务,而现在,借助深度研究功能,这一过程被缩短至仅需5-30分钟。这一变革性的进展,无疑将深刻影响金融、科学、政策、工程等多个领域的知识工作者。

深度研究功能由OpenAI即将推出的o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用强大的推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。这一技术的实现,标志着人工智能在深度研究领域的重大进步。

在评估深度研究功能的能力时,OpenAI特别提到了Humanity’s Last Exam(简称HLE)测试。在这项由全球众多领域专家共同开发的测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新了之前的纪录。相比之下,DeepSeek的R1模型的准确率仅为9.4%。这一成绩充分证明了深度研究在广泛学科领域中的卓越表现。

深度研究功能专为高强度知识工作者设计,他们需要全面、精准且可靠的调研成果。同时,它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时,希望寻求高度个性化建议的消费者。深度研究的输出附有清晰的引用和对其思考过程的总结,便于用户查阅和验证信息。它尤其擅长寻找冷门、非直观信息,通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务。

在技术架构层面,深度研究由四个协同工作的核心模块构成:信息发现模块、信息综合模块、推理模块和输出模块。这些模块共同形成了一个完整的智能研究系统,能够像人类研究者一样进行整体性的思考和决策。信息发现模块负责在多个平台中定位有价值的信息;信息综合模块将零散信息梳理成系统化的知识体系;推理模块对收集到的信息进行深度分析和推导;输出模块则将研究成果转化为专业的呈现形式。

深度研究功能还采用了端到端强化学习的方式,在多个领域中针对复杂的网络浏览和推理任务进行训练。通过这种方式,它学会了如何规划并执行多步骤的操作流程,以找到所需的数据,并在必要时进行回溯以及对实时信息做出反应。这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制。

目前,深度研究功能已在ChatGPT网页版上线,并计划在一个月内扩展到移动和桌面应用程序。OpenAI已推出针对Pro用户的优化版本,每月最多支持100次查询。接下来,Plus和Team用户将获得访问权限,随后是企业用户。未来,用户还将能够连接到更多专业化的数据源,扩展其对订阅制或内部资源的访问权限。

尽管深度研究功能目前仍处于早期阶段,存在一些局限性,如可能生成虚假信息、难以区分权威信息与谣言等,但OpenAI表示将密切监控当前版本的表现,并进行更严格的测试。预计在未来几周和几个月内,随着技术基础设施的完善,深度研究功能的表现将得到进一步提升。

来源:ITBear科技资讯

相关推荐