摘要:当我们在网上搜索信息时,往往需要翻阅大量网页,筛选有用内容,然后将这些零散信息组织成有意义的报告或答案。这个过程既耗时又容易出错。现在,想象有一个AI助手能够像人类研究员一样,自动在网络上搜索、阅读、思考和总结,最终为你生成高质量的研究报告。这听起来像科幻电影
当我们在网上搜索信息时,往往需要翻阅大量网页,筛选有用内容,然后将这些零散信息组织成有意义的报告或答案。这个过程既耗时又容易出错。现在,想象有一个AI助手能够像人类研究员一样,自动在网络上搜索、阅读、思考和总结,最终为你生成高质量的研究报告。这听起来像科幻电影,但实际上正在成为现实。
华为技术有限公司的研究团队最近发布了一项突破性研究成果,由李文俊、陈智、林景如等十一位资深研究员共同完成。这项研究发表于2025年9月,论文题为《深度研究系统的强化学习基础:综述》,详细论述了如何让AI系统像人类专家一样进行深度研究。有兴趣深入了解的读者可以通过arXiv:2509.06733这个编号在arXiv网站上找到完整论文,研究团队还在github.com/wenjunli-0/deepresearch-survey提供了相关资源。
这项研究的核心问题是:如何让AI不仅仅回答简单问题,而是能够像博士生写论文那样,进行复杂的多步骤研究?传统的AI训练方法就像教学生背标准答案,但真正的研究需要的是探索未知、处理不确定性、从错误中学习的能力。华为团队提出,解决这个问题的关键在于使用强化学习技术——一种让AI通过尝试和反馈来学习的方法,就像教孩子骑自行车一样。
研究团队发现,当前大多数AI研究助手的训练方法存在根本性局限。就好比我们总是给学生提供完美的解题步骤让他们模仿,但从不让他们面对真正的难题去摸索。这种方法培养出的AI只会"照葫芦画瓢",无法处理复杂的现实场景。而强化学习的方法更像是让AI在真实环境中实习,通过不断尝试、犯错、改正来积累经验。
为了让普通读者理解这项研究的重要性,我们可以把AI研究助手比作一个正在学习成为侦探的新手。传统训练方法就像让这个新手反复阅读经典案例的标准解答,而强化学习则是让他真正走上街头,面对复杂多变的实际案件,在导师的指导下逐步提升破案能力。
一、数据制造的新配方:为AI研究助手准备"营养餐"
在训练AI研究助手的过程中,数据就像是给学生准备的练习题。但是,为强化学习准备数据和为传统方法准备数据完全不同,就像为马拉松选手和短跑选手准备训练计划的区别一样。
华为研究团队发现,强化学习需要的不是标准答案,而是具有挑战性的问题和可靠的评分标准。想象你要训练一个学生成为优秀的辩论手,你不会只给他背诵标准演讲稿,而是会给他各种复杂的辩题,让他在实际辩论中学习如何组织论据、应对质疑、调整策略。
研究团队将训练数据的构建分为两个关键环节:构造复杂问题和筛选优质内容。在构造问题方面,他们发现需要创造那些无法通过简单查找或记忆解决的任务。比如,不是问"法国的首都是什么",而是问"分析法国城市化进程对欧盟经济政策的影响,并结合最新的社会学研究提供政策建议"。这类问题需要AI跨越多个信息源,进行复杂推理,就像要求学生写一篇综合多个学科知识的研究报告。
团队提出了三种主要的问题构造策略。第一种是"跨文档组合",就像拼图游戏一样,需要从多个不同的网页或文档中收集信息片段,然后组合成完整答案。比如DeepDiver团队开发的WebPuzzle数据集,会从多个网页生成需要交叉验证信息的问题。第二种策略是"结构化路径增长",通过模拟人类浏览网页的行为,从一个权威网站开始,沿着链接逐步深入,构造需要多步导航才能解决的问题。第三种策略是"难度递进变换",从简单问题开始,逐步增加约束条件和复杂度,就像数学练习册从基础题逐渐过渡到综合应用题。
在数据筛选方面,研究团队面临的挑战是如何确保AI学习的内容既有挑战性又不会导致胡乱猜测。他们设计了多重筛选机制:首先过滤掉那些AI已经能够轻易回答的问题,确保每个训练样本都具有学习价值;然后验证答案的可靠性,确保存在明确的正确答案;最后按照难度分级,设计从易到难的学习路径。
这种数据准备方式的创新在于,它不再依赖人工标注的标准答案,而是创造了一个可以自动评估和反馈的环境。就像建设一个模拟城市来训练城市规划师,而不是只让他们阅读规划教科书。这种方法让AI能够在接近真实工作环境的条件下学习,大大提高了训练效果。
二、强化学习的"个人教练":三种训练秘诀
如果说传统AI训练像是在教室里听讲座,那么强化学习就像是配备了个人教练的实战训练。华为团队的研究揭示了三个关键的训练方向,每个都像不同类型的教练,帮助AI研究助手掌握不同的核心技能。
第一个方向是训练体系和优化结构的改进,就像体育训练中的基础体能训练。研究团队发现,大多数成功的系统都采用了一种叫做"DeepSeek-R1风格"的基础训练框架。这个框架的工作原理很像学游泳:首先在浅水区练习基本动作(冷启动阶段),然后逐步到深水区进行实战练习(强化学习阶段)。
在冷启动阶段,AI需要学会基本的"礼仪"——如何正确地调用搜索引擎、如何解析网页内容、如何组织语言等。这就像教孩子在餐厅用餐前先学会使用刀叉。WebSailor团队的研究显示,这个预备训练阶段对于复杂任务至关重要,因为如果AI连基本操作都不会,直接进入强化学习就像让不会游泳的人直接跳进深水池。
随后的强化学习阶段更加有趣。AI会收到一个复杂问题,然后开始它的"探索之旅":思考策略、搜索信息、分析结果、调整方法,最终给出答案。整个过程就像侦探破案,需要不断收集线索、验证假设、修正推理。关键的创新在于,系统会根据最终结果的质量给出反馈,但这个反馈会影响到整个探索过程中的每一步决策。
研究团队还发现了一个重要的训练技巧:课程学习。这就像健身房的训练计划,从轻重量开始,逐步增加难度。EvolveSearch项目展示了如何设计两阶段课程:发现阶段鼓励AI大胆探索各种信息源,精炼阶段则教它如何筛选最有价值的信息。这种方法避免了AI一开始就被过于复杂的任务吓住,也防止了它在简单任务上浪费太多时间。
第二个重要方向是奖励设计和信用分配。这相当于设计一套完善的评分标准,让AI知道什么行为值得奖励。传统方法只关注最终答案是否正确,就像只看学生的期末考试成绩。但强化学习需要更细致的反馈机制,能够识别AI在整个研究过程中的每个有价值的步骤。
研究团队开发了多种创新的奖励机制。其中一种叫"超越基础检索的增益",专门奖励那些通过AI主动搜索获得的信息改进。想象两个学生都答对了同一道题,但一个是通过深入研究得出答案,另一个只是运气好猜对了,这种机制能够区分并奖励前者。另一种机制关注"知识边界感知",奖励AI正确判断自己是否需要外部信息的能力,就像奖励学生诚实承认"我需要查资料"而不是胡乱猜测。
还有一些机制专门处理步骤级的奖励。StepSearch项目创造了一种"信息增益vs冗余"的评分系统,每当AI搜索到新的有价值信息时给予奖励,但如果重复搜索已知信息则给予惩罚。这就像奖励学生发现新的论据支持观点,但不鼓励他们反复引用同一个例子。
第三个方向是多模态研究能力的整合。现实世界的研究往往涉及文字、图片、视频、音频等多种信息形式。华为团队的研究显示,让AI具备处理多种媒体类型的能力,就像培养一个既能阅读文献又能分析图表和观察实验视频的研究员。
在多模态训练中,最大的挑战是让AI学会何时需要"看"而不仅仅是"读"。VRAG-RL项目开发了一套机制,让AI能够主动决定是否需要裁剪图片的特定区域来获得更清晰的细节,或者是否需要对图片进行标注来帮助理解。这就像训练一个艺术史学者,不仅要读懂文字描述,还要能够仔细观察画作的构图、色彩和技法细节。
有趣的是,多模态训练还需要解决"证据必要性学习"的问题。AI需要学会判断何时文字信息足够,何时必须查看图片或视频。WebWatcher项目在这方面有重要突破,它训练AI根据问题性质来决定搜索策略:如果问题涉及视觉元素,优先搜索包含相关图片的网页;如果是概念性问题,则专注于文字内容。
三、训练系统的"工程奇迹":九大支撑平台
训练一个AI研究助手不仅需要好的算法,更需要强大的技术平台来支撑。华为团队的研究揭示了九个主要的训练框架,每个都像是为特定需求设计的专业工具,共同构成了一个完整的"AI训练工厂"。
这些训练平台面临的首要挑战是处理超长对话和工具使用的复杂性。想象一个AI研究助手在处理复杂问题时,可能需要进行几十轮的搜索、阅读、思考循环,每一轮都会产生大量的中间结果。这就像同时进行多个复杂的烹饪项目,需要精确的时间管理和资源协调。
AReaL框架专门解决了"异步并行训练"的问题。传统训练方法要求所有AI实例同步完成任务才能进行下一轮学习,就像要求一个班级的所有学生都完成作业后才能开始新课。但AI研究任务的完成时间差异很大:有的问题几分钟就能解决,有的可能需要几个小时的深入探索。AReaL让快的学生可以继续学习新内容,慢的学生也能按自己的节奏完成,大大提高了训练效率。
SLIME框架则专注于"服务化训练"的概念。它将AI训练过程包装成类似网上购物的服务模式:需要训练时发出请求,系统自动分配资源,完成后返回结果。这种方法特别适合大规模训练,就像将手工作坊改造成现代化工厂流水线,能够处理更复杂的任务并支持更多用户同时使用。
Agent Lightning框架创新性地解决了"训练-部署分离"的问题。在传统方法中,训练AI和实际部署AI使用的是完全不同的系统,就像在实验室培养的植物移植到野外环境时需要重新适应。Agent Lightning设计了一套通用接口,让AI可以在训练环境中直接连接到真实的工具和数据源,训练完成后可以无缝切换到生产环境。
特别值得关注的是verl框架,它专门处理"零冗余重新分片"的技术挑战。简单来说,就是在AI训练和实际使用之间切换时,避免重复加载相同的模型数据。这就像搬家时有一套神奇的系统,能够瞬间将家具从旧房子重新排列到新房子,不需要重新购买任何东西。这种技术对于大规模AI系统至关重要,因为现代AI模型的大小可能达到数百GB,重复加载不仅浪费时间,更会占用巨大的计算资源。
ROLL框架则专注于"样本级调度"的精细管理。每个训练样本都有自己的生命周期:从接收任务开始,经过环境交互、奖励计算,最后完成学习更新。ROLL就像一个智能的项目管理系统,能够同时跟踪成千上万个训练样本的状态,确保每个样本都能得到适当的处理,避免资源浪费或任务遗漏。
OpenR框架在"过程监督"方面有独特贡献。它不仅关注AI的最终答案是否正确,还能监督和评估AI的思考过程是否合理。就像老师不仅要看学生的答案,还要检查解题步骤的逻辑性。OpenR集成了过程奖励模型,能够在训练过程中实时发现AI推理的问题,并给出针对性的指导。
Verifiers框架则专注于"多标准评估"的复杂需求。现实中的研究任务很难用单一标准来评判好坏,需要从准确性、完整性、逻辑性、创新性等多个维度进行评估。Verifiers提供了一套灵活的评估工具,可以根据不同类型的任务设计相应的评估标准,就像为不同类型的比赛设计不同的评分规则。
这些框架的选择使用也有一定的策略性。如果主要关注训练吞吐量,AReaL和SLIME是首选;如果需要与现有系统兼容,Agent Lightning更合适;如果要处理超大规模模型,verl的零冗余技术不可缺少;如果注重训练质量和过程监督,OpenR和Verifiers更有优势。很多实际项目会组合使用多个框架,就像组装一台定制电脑,根据具体需求选择最合适的组件。
四、智能协作的艺术:从单打独斗到团队作战
在现实的研究工作中,很少有人能够独自完成所有任务。通常需要一个团队:有人负责制定研究计划,有人负责收集资料,有人负责数据分析,有人负责撰写报告。华为团队的研究发现,AI研究助手也需要这种团队协作的能力。
当前业界出现了一个有趣的趋势:从"万能型AI"向"专业化团队"转变。就像一家成功的咨询公司,不会让一个人既做市场调研、又做财务分析、还要写最终报告,而是让每个专家专注于自己最擅长的领域,然后通过有效的协调机制整合大家的工作成果。
华为团队分析了四个代表性的开源深度研究框架,每个都体现了不同的协作哲学。Aomni的方法比较直接,采用了"单人多轮"的模式,就像一个经验丰富的研究员独自完成整个项目,但会多次回顾和完善自己的工作。这种方法的优点是简单可控,缺点是容易在复杂任务上遇到瓶颈。
ByteDance的DeerFlow框架则采用了明确的"分工协作"模式。它设置了专门的计划员来分解任务,协调员来管理进度,研究团队来执行具体工作,报告员来整理最终成果。这就像一个成熟的研究机构,每个角色都有明确的职责。这种方法能够处理更复杂的任务,但需要更精细的协调机制。
LangChain的框架提供了更多的灵活性,支持三种不同的工作模式:单人作业、计划-执行分离、主管-多研究员并行。这就像一个可以根据项目规模和复杂度灵活调整组织结构的团队。简单任务用单人模式提高效率,复杂任务用团队模式提高质量。
MiroFlow框架则专注于"流程标准化",它像一个现代化的生产线,将研究过程分解成标准化的步骤,每个步骤都有专门的处理模块。这种方法特别适合需要处理大量类似任务的场景,能够保证质量的一致性。
在学术研究领域,华为团队还发现了几个有趣的协作模式创新。OWL系统采用了"即插即用"的执行器设计,就像乐高积木一样,可以根据需要添加新的专业能力。如果需要处理法律文件,就插入法律分析模块;如果需要分析财务数据,就插入财务分析模块。这种设计让系统具有很强的扩展性。
CoA项目则探索了"角色条件化"的单模型方案,它训练一个AI模型具备多种角色切换的能力。同一个AI可以在需要时变身为搜索专家、分析专家或写作专家。这就像训练一个多才多艺的演员,能够在同一部戏中扮演多个不同的角色。
在多智能体协作训练方面,研究团队面临了更加复杂的挑战。传统的强化学习主要处理单个智能体的学习问题,但当多个AI需要协作时,每个AI的学习都会影响其他AI的环境,形成一个动态变化的学习场景。
MHGPO项目创新性地解决了多智能体信用分配的问题。在一个三人研究小组中(查询重写员、信息排序员、答案生成员),如果最终研究质量很高,如何公平地奖励每个成员的贡献?MHGPO设计了一套"群体相对优势"的评估机制,通过比较不同组合的表现来评估每个成员的价值贡献。
MMOA-RAG项目则采用了更传统但稳定的"集中训练-分散执行"模式。就像一个球队的训练:平时大家一起训练,教练能够观察到每个队员的表现和相互配合,但比赛时每个队员要根据场上情况独立决策。这种方法在多智能体协作中表现出了很好的稳定性。
这些协作机制的发展趋势表明,未来的AI研究助手可能不再是单一的大模型,而是由多个专业化模块组成的智能团队。每个模块都有自己的专长,但能够通过标准化的接口进行协作。这种发展方向不仅能够提高性能,还能够降低开发和维护的成本。
五、能力测试的新标准:从考试到实战
传统的AI能力测试就像学校考试,主要考查记忆和基础技能。但对于AI研究助手来说,我们需要的是更接近实际工作场景的能力评估,就像从纸上谈兵转向实战演练。华为团队的研究系统地分析了当前用于评估深度研究系统的各种基准测试,发现了一个清晰的演进趋势。
最早期的测试主要关注问答能力。HotpotQA和2WikiMultiHopQA这类基准测试就像高考的阅读理解题,需要AI从给定的文章中找到信息并进行推理。这些测试的价值在于验证AI的基础理解和推理能力,但它们都是在一个封闭、干净的环境中进行,就像在无菌实验室中测试药物效果。
随着AI能力的提升,测试环境开始向真实世界靠拢。BrowseComp基准测试让AI直接在真实的互联网上搜索信息来回答问题,这就像让驾校学员直接上路考试而不是在封闭场地练车。这种测试更能反映AI在实际应用中的表现,但也带来了更多的不确定因素:网站可能无法访问,信息可能已经过时,搜索结果可能包含误导性内容。
InfoDeepSeek基准测试引入了一个重要创新:虚假前提问题。这类测试专门设计一些基于错误假设的问题,看AI是否能够识别并拒绝回答,而不是胡乱编造答案。这就像测试一个医生面对无法诊断的症状时,是否能够诚实地承认"需要进一步检查"而不是随意下结论。
多模态能力的测试代表了另一个重要发展方向。MMSearch和MMDocIR等基准测试不仅要求AI处理文字信息,还要能够理解图片、图表、视频等多种媒体形式。MM-BrowseComp更进一步,要求AI在浏览网页时能够理解页面中的图片和视频内容,并将视觉信息与文字信息结合起来回答问题。这就像测试一个新闻记者不仅要会写文章,还要能够分析照片和视频素材。
在长文本生成能力的测试方面,DeepResearch Bench代表了当前最高标准。它包含100个博士级别的研究任务,要求AI不仅要找到相关信息,还要组织成结构完整、论证严密的研究报告。测试采用了两套评估标准:RACE标准关注内容的全面性和深度,FACT标准则检验引用的准确性和可信度。这就像从简单的问答题升级到撰写学术论文的水平。
领域专业化测试展现了AI研究助手向实用化发展的趋势。Xbench专注于招聘和营销等商业场景,测试AI是否能够胜任具体的职业任务。Finance Agent Benchmark和FinGAIA专门测试金融领域的研究能力,要求AI能够分析财务数据、理解市场趋势、评估投资风险。这些测试就像专业资格考试,验证AI是否具备在特定领域工作的能力。
τ?-Bench引入了一个特别有趣的测试概念:双控制环境。在这种测试中,AI不是独自完成任务,而是需要与人类用户协作,双方都能使用工具和影响环境。这就像测试一个技术支持人员,不仅要能够诊断问题,还要能够指导用户进行相应操作,处理用户的反馈和新情况。
OdysseyBench代表了最接近实际工作场景的测试标准。它设计了跨越Word、Excel、PDF、邮件和日历等多个办公应用的长期任务,要求AI在数小时甚至数天的时间跨度内协调处理复杂的工作流程。这就像让AI担任一个项目经理,不仅要完成单个任务,还要管理整个项目的进度和资源。
这些测试标准的演进反映了AI研究助手技术的快速发展。从最初的简单问答,到现在的多模态、长期、专业化任务处理,测试复杂度的提升推动了技术能力的持续进步。同时,这些测试也揭示了当前技术仍然面临的挑战:如何在开放环境中保持稳定性,如何处理多样化的专业需求,如何在长期任务中保持连贯性和准确性。
华为团队的研究指出,未来的测试标准需要更加关注几个新兴方向:首先是鲁棒性和安全性测试,确保AI在面对恶意信息或攻击时能够保持正确判断;其次是适应性测试,验证AI是否能够从用户反馈中学习并改进表现;最后是伦理和责任测试,确保AI的研究行为符合学术道德和社会责任要求。
总的来说,AI研究助手的能力评估正在从实验室测试向实际应用场景转变,从单一技能考核向综合能力评估发展,从静态测试向动态交互测试演进。这种变化不仅推动了技术进步,也为AI研究助手的实际应用奠定了更坚实的基础。
六、技术前景与现实意义:从实验室到日常生活
华为团队这项研究的意义远远超出了技术本身,它描绘了一个AI研究助手大规模普及的未来图景。在这个图景中,每个人都可能拥有一个专业的研究伙伴,帮助处理工作和生活中遇到的复杂信息需求。
从技术发展的角度来看,这项研究解决了AI研究助手从"能用"到"好用"的关键问题。过去的AI助手就像一个只会背书的学生,虽然知道很多事实,但面对新问题时往往束手无策。而通过强化学习训练的AI研究助手更像一个经验丰富的研究员,不仅知识丰富,更重要的是具备了探索未知、解决问题的思维方式。
这种能力提升带来的应用前景非常广阔。在教育领域,AI研究助手可以成为学生的个人导师,不仅回答问题,还能指导学生如何进行深入研究,培养批判性思维。在商业环境中,它可以帮助企业快速分析市场趋势、竞争对手情况、行业发展动态,为决策提供有力支持。在科研工作中,它可以协助研究人员进行文献综述、数据分析、假设验证,大大提高研究效率。
对普通用户来说,这项技术可能带来生活方式的显著改变。购房时,AI可以帮你研究目标区域的发展规划、交通状况、教育资源、房价走势;投资时,可以分析不同理财产品的风险收益、市场前景、监管政策;甚至规划假期时,也可以综合分析目的地的天气、文化、美食、交通、住宿等各方面信息,制定最优的行程安排。
华为团队的研究特别强调了系统性和工程化的重要性。他们发现,要让AI研究助手真正实用,不仅需要先进的算法,更需要完整的技术栈支撑。这包括数据处理、模型训练、系统部署、用户交互、安全保障等各个环节的协调配合。这种系统性的思考方式为整个行业提供了宝贵的借鉴。
在数据隐私和安全方面,研究团队也考虑了实际部署中可能遇到的挑战。AI研究助手需要访问大量的在线信息,同时也可能处理用户的敏感数据。如何在提供优质服务的同时保护用户隐私,如何防范恶意信息的影响,如何确保AI不被滥用,这些都是技术发展必须面对的问题。
研究团队提出的多智能体协作框架也具有重要的现实意义。在复杂的商业环境中,不同的任务往往需要不同的专业知识。通过将大型AI系统分解为多个专业化的子系统,不仅可以提高处理效率,还能够降低维护成本,提高系统的可扩展性。这种模块化的设计理念可能成为未来AI系统架构的主流方向。
从产业发展的角度来看,这项研究可能推动AI应用从消费级向专业级的转变。目前的AI助手主要服务于简单的查询和对话需求,而具备深度研究能力的AI助手将能够承担更复杂、更有价值的工作任务。这可能催生新的商业模式和服务形态,比如专业的AI研究服务、定制化的知识分析平台、智能化的决策支持系统等。
技术标准化也是这项研究的重要贡献之一。华为团队系统梳理了AI研究助手的技术框架、评估标准、实施方法,为行业发展提供了统一的参考依据。这有助于避免重复开发,促进技术积累,加速整个行业的进步。
当然,任何新技术的发展都伴随着挑战和风险。AI研究助手的普及可能对传统的信息服务行业产生冲击,改变人们获取和处理信息的方式。如何确保技术发展的普惠性,如何帮助传统行业转型升级,如何培养人们与AI协作的新技能,这些都需要全社会的共同努力。
展望未来,华为团队的这项研究为AI技术发展指明了一个重要方向:从简单的模式识别向复杂的认知推理转变,从被动的信息检索向主动的知识发现转变,从单一的任务执行向综合的问题解决转变。这种转变不仅是技术层面的进步,更代表了AI向真正智能化迈进的重要步伐。
说到底,这项研究的最大价值在于,它让我们看到了AI技术发展的新可能性。在不远的将来,每个人都可能拥有一个专业、可靠、高效的研究伙伴,帮助我们更好地理解世界、解决问题、做出决策。这不仅会提高我们的工作效率,更可能改变我们思考和学习的方式,让知识获取和应用变得更加民主化和普及化。当然,这个美好愿景的实现还需要时间和努力,但华为团队的研究已经为我们展示了通向这个未来的清晰路径。
Q&A
Q1:强化学习训练的AI研究助手与传统AI助手有什么本质区别?
A:传统AI助手就像只会背标准答案的学生,主要通过模仿人类提供的示例来学习,面对新问题时容易束手无策。而强化学习训练的AI研究助手更像经验丰富的研究员,它通过在真实环境中不断尝试、犯错、改正来学习,具备探索未知、处理复杂多步骤任务的能力,能够主动搜索信息、分析证据、调整策略,最终生成高质量的研究报告。
Q2:华为团队提出的多智能体协作模式是如何工作的?
A:这种模式就像组建一个专业研究团队,不同的AI承担不同角色:有负责制定研究计划的"计划员",有负责协调任务分配的"协调员",还有专门执行搜索、分析、写作等具体工作的"执行员"。每个AI都有自己的专长,通过标准化接口进行协作。比如MHGPO项目中的三人小组包括查询重写员、信息排序员和答案生成员,它们通过"群体相对优势"机制来评估和改进各自的贡献。
Q3:普通用户什么时候能用上这种AI研究助手?
A:虽然华为团队的研究还主要停留在技术框架层面,但类似技术已经开始在一些产品中出现。OpenAI、Google、Perplexity等公司都推出了具备深度搜索能力的AI助手。预计在未来2-3年内,具备基本深度研究能力的AI助手将逐渐普及,能够帮助用户处理购房分析、投资决策、学习研究等复杂任务。不过要达到论文中描述的完整能力水平,可能还需要更长时间的技术成熟和优化。
来源:科技行者一点号1