摘要:本文将深入探讨DeepResearch产品的概念、功能、应用场景以及如何评估其优劣,同时对比分析目前市面上主流的DeepResearch工具,帮助读者更好地理解这一领域,并找到适合自己的深度研究工具。
本文将深入探讨DeepResearch产品的概念、功能、应用场景以及如何评估其优劣,同时对比分析目前市面上主流的DeepResearch工具,帮助读者更好地理解这一领域,并找到适合自己的深度研究工具。
OpenAI在今天2月推出了DeepResearch的功能后,带火了DeepResearch这个概念,碍于其之前仅有昂贵的Pro会员(200美元/月)才可使用的原因,其关注度似乎没有特别高,但是就个人而言,ChatGPT的DeepResearch是其目前最强大的Agent应用,也是个人目前愿意持续付费购买的主要原因!
作为一个DeepResearch领域的AI创业者,三白在2023年的时候就开始关注该领域,我坚信AI应该用于生产有用的知识,而不是批量生产一堆“AI水文”,所以从23年开始,我亲自下场做了一个DeepResearch的AI应用,从一开始我的定位就是做深度研究,只输出有深度、研究级的知识内容。
因此,今天这篇文章我主要想围绕着DeepResearch领域,分享一些我个人的研究和思考!全文6000+字,我将通过这篇文章向大家科普解释一下什么是DeepResearch产品,以及向大家推荐一下目前市面上还不错的DeepResearch工具,并构建一个评估框架对比分析不同产品的差异,希望能对大家在研究工作和学习上有些帮助!
一、DeepResearch工具有什么用?和目前普通Chatbot类产品的AI搜索问答产品不同的是,DeepResearch产品能够输出研究级的深度内容,可以帮助你深入的研究和了解一个话题,且其输出成果具备更多的信息量和知识,对于大众用户而言,可以用于帮你快速且深入的了解一个你刚兴趣的研究领域,比如你可以用它们理解一下到底什么是DeepResearch;
而更加受益的群体,主要是那些有高频的研究工作的群体,包括金融投研人群、行业研究和市场研究人群、企业战略研究、学术科研人群等,通过DeepResearch产品,可以帮助他们快速的完成基础研究和现状研究,让他们可以把更多的精力聚焦在原创研究上。
个人认为,DeepResearch类产品的出现,真正的实现了让大家能够通过AI生产高质量的知识,而不是生产互联网垃圾,所以个人比较推崇使用该类型的产品用于提升自己的认知和知识水平。
二、什么是DeepResearch产品?1.DeepResearch、Deep Search、RAG三者有什么区别?
相信大家平时会经常看到这三个词,估计也有很多人可能都还没有搞清楚这三者的区别,所以我先科普一下三者的差异!
1.RAG及其局限性
RAG(增强检索生成)是去年比较火的概念,因为大模型不具备实时联网的能力,所以在问答的时候需要通过搜索引擎来检索实时的信息,所以RAG成为了一种通用AI产品的标配,RAG的原理很简单,就是大模型在执行回答的时候,先检索与用户输入的提示词相关的信息,然后阅读检索的内容,最后针对问题做出回答,整个过程中,只执行一次检索,然后直接做出回答;
RAG的局限性就是比较依赖搜索引擎和检索数据源,想要一次性就准确并且完整的检索到回答用户问题需要的参考信息难度比较大,很容易出现检索数据缺漏,或者检索结果质量深度不够的问题,比较适合快搜索以及简单问答场景。
2.Deep Search是什么?
Deep Search则是在在 RAG 基础上引入多步迭代机制,通过「搜索→阅读→推理→再搜索」的循环流程持续的检索,直到满足某一业务设定的条件才终止,最终最大限度的获得更好的结果。
这个过程中,用户输入提示词之后,系统会初步检索,并阅读检索的结果,然后推理判断目前的检索结果是否足以很好的回答当前的问题,比如如果分析发现依然存在信息缺口后触发二次检索,直至满足预设终止条件(比如token 预算耗尽或答案结果的置信度达标)。比如近期豆包上线的深度搜索的功能,能支持“边想边搜”的功能,本质其实就是这样的一个过程;
这种设计方式,构建了一个机制,让系统能够尽可能更多的去检索更多的结果,并且在检索的过程中能够及时的发现存在的问题,并进一步努力优化,从而可以显著提升检索结果的丰富度和准确度,并且提升回答结果的准确度、完整性等。但是可想而知的是,这个方式,必然导致的是检索和响应问答的时间会延长,问答的成本会提高很多。
3.Deep ReSearch是什么?
Deep Research和Deep Search的区别在于,Deep Research模式之下,系统会在回答用户的问题的时候,会先构建一个系统的提纲,然后在回答每一级提纲的内容的时候,都走一遍Deep Search的流程,假如有100个大纲,则需要执行100次Deep Search的过程;因此Deep Research模式下可以生成非常长、且有深度的内容,达到超长的研究报告的水平。
1.海外的DeepResearch产品
1)ChatGPT DeepResearch
ChatGPT的Deep Research功能是个人认为目前最强大的能力之一,目前仅针对付费用户开放使用,20美元/月的PLUS用户每月开放10次免费使用额度,200美元/月的PRO会员每月可免费使用120次;该能力基于o3模型,主打高端用户市场,面向有深度研究需求的用户群体,强调推理能力和高质量报告生成。
体验地址:https://chatgpt.com/
2)Gemini DeepResearch
Google是最早提出 DeepResearch这个概念的企业,目前在Gemini中也推出了Gemini DeepResearch的功能,且针对免费用户每月可免费体验5次,相比ChatGPT相对更加友好,但是从个人深度体验下来,个人觉得在深度研究的产品能力上还是不如付费的ChatGPT,具体的对比我们在后面阐述。
体验地址:https://gemini.google.com/app
3)Perplexity Pro Search
作为海外AI搜索的头部产品,Perplexity在2025年2月13日也推出了自己的Deep Research 产品,并且面向免费用户每天提供3次的使用权限,付费订阅用户每个月可使用300次,免费权益粒度比Gemini更高。
体验地址:https://www.perplexity.ai/
4)Jina AI node-DeepResearch
这是一个开源的DeepResearch产品,代码完全公开在github,访问链接为 https://github.com/jina-ai/node-DeepResearch,产品的基础模型基于开源模型(如DeepSeek-R1等),支持切换OpenAI等其他模型,也支持支持本地部署和二次开发,该产品不可直接体验,适用于企业研发使用。
2.国内的DeepResearch产品
1)腾讯ima Copilot:国内大厂圈接近DeepResearch的产品
从前面可以看到,目前主流的AI产品里面(包括deepseek、豆包、元宝、kimi、通义等产品)暂时并没有看到上线DeepResearch类的产品,而在大厂圈里面,个人认为,腾讯推出的ima这块产品,有些接近DeepResearch类产品,特别在接入R1支持深度推理模型之后,再结合微信公众号数据源下的搜索能力,ima在实现DeepResearch上,有很大的优势。
但目前ima在输出内容的质量上,个人觉得还没有达到”深度“这个水平;ima目前更多的还是只支持相对深入一点的AI通用问答场景的生成,比如创作的场景目前只支持论文、作文、文案这种相对普通一点的研究场景,还没有支持研究报告、商业分析、学术研究等研究级别的应用场景。
体验地址:https://ima.qq.com/
2)AI快研侠:小而美垂直纯粹的DeepResearch产品
因为目前大厂圈的产品中还没有切入这个领域的产品,创业公司中,目前做DeepResearch的产品也不多,AI快研侠算的上是DeepResearch领域小而美的一个AI产品,虽然在产品能力上肯定无法跟大厂的产品相比,但是AI快研侠的产品实现粒度更加垂直,只做有深度的超长研究报告生成的场景,整个产品只专注在行业研究、产品研究、公司研究、学术研究这几个有限的场景,聚焦于把这几个垂直场景的内容生成做的更加精和专;
体验地址:https://www.kuaiyanai.com
3.DeepSeek-R1深度思考、豆包深度思考、Kimi探索版、秘塔搜索等算不算深度研究产品?
严格意义上讲,个人觉得这几个产品都不能算是DeepResearch产品,这些产品开启深度思考模式之后的产品能力更多的是实现DeepSearch的效果和能力,并没有达到深度研究的水平,目前这些产品主要是将DeepSearch的实现机制应用于深度的搜索问答场景,并没有实现多轮DeepSearch实现研究报告级别的超长文本的输出,因此不能算DeepResearch,对于用户而言,你可能需要多次的使用其深度搜索的功能,最后手动汇总的结果才能达到DeepResearch产品的输出结果。
4.国内大厂为何目前都没有布局DeepResearch类产品?
个人认为,这不是一个技术和产品问题,是一个成本和商业化的问题,可想而知,要做一个DeepResearch的产品,其成本消耗是非常大的,生成一篇超过万字的研究报告,需要使用成本更高的推理模型,并且需要检索和阅读大量的参考信息并生成超长文本的输出,这个过程在模型token和API资源的消耗上非常大,根据个人的经验,可能生成一篇报告的成本要达到50~60元左右。
这样极高的成本,即使放在大厂,免费开放给用户使用,都是一个不得了的数字,所以这样的能力必须要收费,但是一涉及收费,就必须要讨论产品的商业化的问题;目前个人觉得大厂的产品,基本都是在考虑用户增长和市场规模的问题,且国内整体都免费的环境,很难让他们马上开始考虑商业化这个问题;
反而是一些小一些的创业公司,他们没法提供免费产品,产品的定位就是有限免费或直接付费,他们会努力想办法提供DeepResearch级别的产品,确保生成内容的质量和深度,但是需要向用户收取一定的费用来平摊这里的成本,对于生成结果有一定的商业价值,或者能因此节约更多成本的用户而言,他们会认可这里的收费限制,比如很多研究机构制作一份研究初稿的成本可能都要上万块。
四、如何评估一个DeepResearch产品的好坏?接下来我们对比一下前面这几个产品的表现如何,在对比之前,我们先讨论一个问题,如何去评估一个DeepResearch产品能力的好坏,其评估框架是什么?作为该领域的AI产品经理,分享我的个人见解如下:
1.模型的思考和规划能力
思考和规划的能力通常决定了研究结果的框架和基本质量,这个环节首先定义了输出这个研究话题,需要研究和解答哪些研究方向的内容,而该过程模型规划和提出的问题的质量,基本决定了最后输出结果的研究质量和深度,简单一点讲就是你给模型一个研究主题,它能不能提出很好的问题框架,从更丰富和更高层级的角度看待问题,这对于一个深度研究而言,是一个重要的开始;
其次才是模型能不能很好的先自主规划怎么更好的解答每个研究话题的内容,以上这两点,最终的落脚点可能都是回到到深度推理模型的能力上,所以接入一个强大的推理模型,对于实现一个好的DeepResearch产品非常重要,比如使用DeepSeek R1和OpenAI O3,可预期的会比其他接入其他基础模型更好,当然,很多DeepResearch产品并没有自己的推理模型,也可以接入外部的模型,比如perplexity等。
2.搜索引擎和多模态理解能力
搜索引擎的能力主要包括检索结果的准确性、时效性、丰富度、内容质量,也就是围绕一个研究主题,搜索引擎能否检索到更加准确、实时性强、内容覆盖率高、内容质量更强的检索结果,这对于最终的研究结果的输出质量至关重要,而达到这几个标准依托接入强大的搜索引擎,以及构建高质量的数据源,其中搜索引擎可能可以通过接入市面上主流的搜索引擎解决掉,比如Bing搜索、谷歌搜索等,对于大公司来说差异可能不会很大;但是高质量的数据源是一个存在门槛的竞争点,比如微信公众号拥有更高质量的知识内容数据源,小红书拥有更高质量的种草攻略的内容数据源。
其次是多模态理解能力,因为即使你检索到了很多的高质量的检索结果,但是怎么把结果完整的输入给模型,这也很重要,特别是当下很多高质量的内容一般是图文结合的,并且很多内容格式是以PDF的格式存在,所以多模态理解的能力非常重要,强大的多模态理解能力,可以准确的提取检索结果中的内容,并转换成文本等信息提交给大模型,确保最终输出的研究成果不会丢失检索结果中的关键信息。
3.调用API资源和工具的能力
实现一个完整的DeepResearch类的产品,不仅需要大模型、搜索引擎、多模态理解的技术能力,还需要配套很多API资源和工具的能力,比如网页内容提取、文档结构化、图表可视化等API和工具,因此,API和工具的调用能力,也是一个DeepResearch类的产品能力的关键影响因素。
4.产品工程设计和研究结果的呈现能力
产品工程的设计体现在产品经理对于研究场景的用户需求的理解,并且在产品设计上有意的满足用户的需求,比如对于深度研究的场景,研究人员一般会有固定的专业研究框架,会认可特定的权威数据源,有固定的输出范式等,产品经理在设计输出结果的时候,如果能顾忌到以上需求,会获得更多的用户认可;
对于研究结果的呈现能力,主要体现在如下几点:
准确性:其中包括生成结果的幻觉率高低、引用来源的权威性、以及是否可追溯验证等,会影响用户对于生成结果准确性的判断;专业性:包括要点信息覆盖率、专业术语、案例和数据内容的占比等,会影响用户对于生成结果专业性的判断;可读性:包括逻辑性、信息呈现的效率、图文混合样式、图表和表格的样式等;创新性:最后一点, 高质量DeepResearch产品的一个关键区别还在于模型的输出结果,是否能超越表面总结,提供一些创造性的思考。五、产品能力对比:ChatGPT、Gemini、Perplexity、ima、AI快研侠为了深入的对比以上几个产品能力的表现情况,我以“豆包AI语音聊天产品未来发展方向”这个主题为例,分别在各个应用中做生成结果测试,以下为不同产品生成的结果对比,由于内容比较多,就不全部展示出来,有兴趣的可以私我要源文档。
对比不同的产品的生成结果,个人的感受是,从综合能力的角度上看,个人觉得ChatGPT DeepResearch整体能力最强,其次是Gemini DeepResearch和Perplexity Pro Search,两者差异不大,第三是AI快研侠,腾讯IMA目前在输出质量上,说实话还没有完全达到DeepResearch的标准,因此排最后,具体对比维度的详细见下。当然,以下也仅为个人根据目前使用多个DeepResearch产品后的实际感受对比,并非经过严格的专业测评,评估结果可能存在争议或者不准确的地方,内容仅供参考。
综上所述,整体而言,对于用户来说,如果你的研究主题是一些单点的话题,而不是一个完整的研究报告,可以优先使用ChatGPT DeepResearch,可能能获得比较好的生成结果,但是该功能是付费用户才可以使用,且定价比较贵;其次可以选择Gemini DeepResearch、Perplexity Pro Search,这两个产品都可以提供免费的额度,以上三个产品都是海外产品,需要支持科学上网才可使用;
来源:人人都是产品经理