阿里开源DeepResearch模型,超强“AI研究员”,开启自主智能体新纪元

B站影视 内地电影 2025-09-19 18:33 2

摘要:它是全球范围内,第一个敢说在性能上能和行业标杆OpenAI DeepResearch掰手腕,并且选择将自己彻彻底底、从头到脚全部开源的Web Agent(网络智能体)。在多个业界公认的权威基准测试中,Tongyi DeepResearch不仅表现优异,甚至在不

阿里巴巴通义实验室向全球开源了他们的心血之作——Tongyi DeepResearch(通义深度研究)模型。

它是全球范围内,第一个敢说在性能上能和行业标杆OpenAI DeepResearch掰手腕,并且选择将自己彻彻底底、从头到脚全部开源的Web Agent(网络智能体)。在多个业界公认的权威基准测试中,Tongyi DeepResearch不仅表现优异,甚至在不少单项上直接登顶,给整个AI行业的技术标杆来了一次硬核刷新。

在过去的整整六个月里,这个团队跟“劳模”似的,每个月都雷打不动地对外发布一篇技术报告。而伴随着Tongyi DeepResearch的正式亮相,他们一口气又甩出了六篇全新的技术报告,内容从数据合成,一直讲到玄妙的长期推理,几乎把智能体技术的方方面面都给扒了个底朝天。

AI智能体的“最强大脑”是如何炼成的

Tongyi DeepResearch采用了当下极为先进的MoE架构。性能与同等规模的传统稠密模型(即所有专家都参与计算的模型)旗鼓相当的同时,推理效率直接飙升了近10倍。这意味着,部署和使用这种高性能AI智能体的门槛,被实实在在地打下来了。

Tongyi DeepResearch-30B-A3B核心参数

高达128K的超长上下文窗口。意味着模型可以一次性处理和记忆巨量的信息,足以支撑那些需要进行长周期、多轮次深度挖掘的研究任务。在实际应用中,它可以同时“阅读”并理解数十篇学术论文,或者同时浏览数百个网页内容,更厉害的是,它还能在这些海量信息之间进行穿梭,发现不同文档之间的内在联系,然后进行综合归纳。这种能力,对于任何一个需要处理复杂信息的知识工作者来说,都是梦寐以求的。

通义团队为这个“大脑”设计了两套截然不同的“思维模式”,或者叫推理范式:

第一套模式,叫ReAct模式。ReAct(思考+行动)是智能体领域一个非常经典和基础的推理范式,它的逻辑非常纯粹,就是严格遵循“思考-行动-观察”这个闭环。模型会先对当前面临的问题和环境进行一番推理(Reason),然后基于推理结果决定下一步要采取什么行动(Act),比如点击一个链接、搜索一个关键词等,最后它会观察这个行动带来了什么新信息或变化,然后带着新的观察结果,进入下一轮的“思考-行动-观察”循环。

通义团队之所以坚持保留并强调这种基础模式,很大程度上是受了一个在AI领域广为流传的“惨痛教训”(The Bitter Lesson)的影响。这个教训的核心思想是,从长远来看,那些充分利用海量计算能力的通用方法,最终总是会胜过那些依赖于人类专家精心设计的复杂规则和知识。在ReAct模式下,模型不需要任何花里胡哨的提示词工程(Prompt Engineering),就能“素颜”出镜,完全展现其经过训练后固有的推理和规划能力。

第二套模式,则完全是为“硬核”场景量身定制的,叫做IterResearch模式。

当面对那些极端复杂、需要N多个步骤才能完成的深度研究任务时,传统的智能体模式往往会遇到瓶颈。它们会把所有搜集到的信息,无论重要与否,都一股脑地堆积在一个不断变长的上下文窗口里。这就像一个研究员的书桌,随着研究深入,上面堆满了各种论文、草稿、数据,最终导致“认知瓶颈”,在海量信息中迷失方向,被各种“噪音”污染了判断力。

IterResearch范式就是为了解决这个问题而生的。它的核心思想极具智慧:化整为零,迭代求精。它将一个庞大而复杂的任务,分解成一系列结构清晰的“研究回合”。在每一个回合开始时,Agent不会背负上一回合的所有信息,而是只携带上一回合产出的最核心、最重要的结论,来构建一个全新的、精简的工作空间。在这个高度专注的工作空间里,Agent会重新分析问题,将新一轮的关键发现,整合进一个不断生长和演变的核心报告中。然后,它会做出决策:是现有的信息已经足够,可以给出最终答案了,还是需要开启下一轮行动,去搜集更多的信息?

这种“综合与重构”的迭代过程,就像一位顶尖的侦探在办案。他不会被成堆的线索淹没,而是每一天都重新整理案情板,只保留最关键的线索和推理,然后以此为基础,决定第二天的调查方向。这使得Agent在执行旷日持久的长期任务时,能够始终保持清晰的认知焦点和高质量的推理能力。

更进一步,通义团队还提出了一个名为Research-Synthesis(研究-综合)的框架。他们让多个并行的IterResearch Agent同时去研究同一个复杂问题,每个Agent都像一个独立的研究小组,从不同路径进行探索。最后再将这些“研究小组”各自产出的精炼报告和最终结论进行汇总整合,从而得出一个更加全面和准确的最终答案。这种“多路并进,殊途同归”的并行结构,让模型在有限的上下文窗口内,能够探索更广阔的研究路径,将其性能推向了新的极限。

不靠人工喂养,AI如何实现自我进化

Tongyi DeepResearch之所以能够实现如此突破,其秘密武器并不仅仅在于模型架构本身,更在于其背后那一整套堪称“革命性”的智能体训练方法论。通义团队几乎是重新发明了轮子,他们对从预训练、微调到强化学习的整个流程进行了彻底的再思考,最终构建起一个完整的、自洽的智能体模型训练范式。这个范式将Agentic CPT(智能体持续预训练)、Agentic SFT(智能体监督微调)和Agentic RL(智能体强化学习)这三个关键阶段无缝地衔接起来,为AI Agent的培养,创造了一个真正意义上的端到端训练闭环。

这个闭环的核心,是一套名为“AgentFounder”的系统,它的作用是实现全自动的、高质量的合成数据生成。我们知道,传统AI训练极度依赖海量的人工标注数据,这不仅成本高得吓人,而且生产效率低下,难以规模化。而AgentFounder系统的出现,彻底改变了这一局面。

在模型的“学前教育”阶段,即增量预训练阶段,团队创新性地引入了所谓的Agentic CPT(智能体持续预训练)。这个阶段的目标,是为后续的正式训练,打下一个具备基础智能体能力的强大基座模型。

数据合成的过程分为两步:

第一步是“数据重组和问题构建”。团队像一个知识炼金术士,将海量、多源的知识素材——包括持续更新的知识文档、公开的网页爬虫数据、庞大的知识图谱,甚至是在后续训练中产生的轨迹数据和工具调用返回的结果(比如搜索结果网页)等等——全部熔于一炉,构建了一个以“实体”为核心的、模拟真实世界的开放知识记忆库。然后,他们基于这个记忆库,通过采样实体和相关知识,自动地、大规模地构造出各种风格的(问题,答案)数据对,力求覆盖智能体在真实世界中可能遇到的五花八门的场景。

第二步是“动作合成”。有了问题和答案,还需要教会模型如何一步步地“做”出来。团队基于之前生成的多风格问题和大量的历史轨迹数据,分别构建了三种类型的动作数据。这其中既包含了指导模型如何进行单步规划和推理的动作,也包含了模拟复杂决策过程的多步决策动作。这种方法的好处是,它可以在完全离线的环境下,大规模、全方位地探索潜在的“推理-动作”空间,而不需要去频繁调用那些昂贵的商业工具API。举个例子,在合成决策动作时,系统会将原始轨迹中的步骤进行巧妙地扩展和重组,最终建模成一个需要多步骤决策才能完成的任务数据,以此来激发和锻炼模型在未知环境中的探索能力和决策能力。

当模型完成了“学前教育”,进入到“九年义务教育”和“高等教育”阶段,也就是后训练阶段,团队又拿出了一套更精密的端到端合成数据生成方案。

通义团队在这条路上也并非一蹴而就,而是经历了一个漫长而艰辛的探索迭代过程。从早期为了逆向工程网页点击流而构建的Benchmark(基准测试)“WebWalker”,到后来更加系统化的、基于图谱的合成方法“WebSailor”及其升级版“WebSailor-V2”,再到最终形式化的任务建模框架“WebShaper”,团队的方法论在一次次实践中不断进化,最终确保了合成数据的卓越质量和强大的可扩展性。

为了应对那些复杂且充满不确定性的真实世界问题,团队设计了一种新颖的流程来合成基于Web的问答数据。这个流程首先像一位数据建筑师,通过在高度互联的知识图谱中进行随机游走,以及融合来自不同数据源的同构表格,将来自真实网站的数据进行整合,并精心保持了信息结构的真实性。然后,系统会从这些整合好的子图和子表中进行采样,生成初始的问题和答案。最关键的一步来了:系统会策略性地对问题中的信息进行“混淆”或“模糊化”处理,以此来增加问题的难度。

这种增加难度的方式并非随意的,它背后有一套基于组合泛化理论的严谨框架。团队将问答的难度,正式地建模为一系列可控的“原子操作”,比如“合并具有相似属性的实体”,这些操作都基于实体间的关系,使得团队能够系统性地、一层层地增加任务的复杂性。

不仅如此,为了让模型能够应对博士级别的研究难题,团队还专门开发了一套自动化的学术数据构建流程。这个引擎以一个庞大的多学科知识库为基础,首先生成一批需要进行多源推理才能解答的“种子”问答对。然后,每一个“种子”都会进入一个自我引导的“迭代复杂性升级”循环。在这个循环中,一个专门负责构建问题的代理,被赋予了一套强大的工具箱,包括网络搜索、学术文献检索和Python执行环境。

在每一次迭代中,这个代理都会利用工具去扩展自己的知识边界,深化对概念的抽象理解,甚至构建计算任务。这样就形成了一个奇妙的演化循环:上一轮的输出,成为了下一轮构建更复杂问题的输入。这个过程确保了任务难度的提升是可控且系统化的,一步步将模型的能力推向新的高度。

光有高质量的数据还不够,如何让模型在实践中学会趋利避害,将自身行为与更宏大的目标对齐,这就需要强化学习(RL)的介入。通义团队在这方面同样进行了多项创新。他们基于一种名为GRPO(Group Relative Policy Optimization,分组相对策略优化)的算法进行了深度定制和优化,并严格遵循on-policy(同策略)的训练范式。这确保了学习信号始终与模型当前的能力水平精准匹配,避免了“好高骛远”导致的训练崩溃。

同时,他们采用了一个token级别的策略梯度损失函数来优化训练目标,并为了进一步降低优势估计的方差,引入了“留一法”(leave-one-out)策略。团队还发现,在训练过程中,如果不对负样本进行筛选,一些质量差的负样本会严重影响训练的稳定性,甚至在长时间训练后导致模型的输出“格式崩溃”。为了解决这个问题,团队会选择性地将某些特定的负样本排除在损失计算之外,比如那些因为轨迹过长而未能生成最终答案的失败样本。

通义团队深刻认识到,算法本身并非决定Agentic RL(智能体强化学习)成败的唯一因素,甚至不是最重要的因素。在尝试了各种算法和优化技巧后,他们得出一个朴素而深刻的结论:数据质量和训练环境的稳定性,可能才是决定一个强化学习项目最终是走向成功还是失败的关键一环。

基于这一认知,团队在基础设施层面构建了多项关键创新。他们创建了一个高仿真的训练环境。因为依赖实时的Web API进行开发,不仅成本高、速度慢,而且结果充满了不确定性。于是,团队利用离线的维基百科数据库和一套自定义的工具套件,搭建了一个模拟的训练环境。并且通过前面提到的SailorFog-QA-V2流程,为这个环境量身定制了专属的高质量数据。这个平台经济高效、快速可控,极大地加快了团队的研究和迭代速度。

为了确保智能体在训练和评估期间能够稳定地调用各种工具,团队开发了一个统一的工具沙盒。这个沙盒通过缓存常用结果、自动重试失败的调用以及在超高并发下的饱和式响应等机制,来高效地处理并发请求和各种突发故障。这为智能体提供了一个快速且极其鲁棒的交互环境,有效防止了因工具的偶然性错误响应而破坏其宝贵的学习轨迹。

通义团队在rLLM(一个强化学习框架)之上,实现了一个异步的强化学习训练推理框架。多个智能体实例可以并行地与(模拟或真实)环境进行交互,各自独立地生成轨迹数据。

通过这一系列环环相扣的措施,通义团队真正实现了智能体强化训练的“闭环”。从一个强大的基座模型开始,通过Agentic持续预训练来初始化工具使用技能,然后使用接近专家水平的合成数据进行监督微调以实现“冷启动”,最后,在on-policy(同策略)的强化学习中,让模型进行持续的自我进化。

这种全栈式的、系统化的方法,为训练能够在动态、复杂的环境中稳健解决问题的AI代理,提供了一种全新的、可复制的范例。

DeepResearch实测表现

Humanity's Last Exam“人类终极考验”。是一个极具挑战性的学术推理评测集,里面的问题横跨多个学科领域,都是些需要高阶认知能力才能解答的难题。Tongyi DeepResearch在这个评测集上取得了32.9分,比OpenAI o3的24.9分足足高出了8分。

BrowseComp系列是评测智能体在真实网页环境中进行导航和信息检索能力的权威基准。可以把它想象成一个“AI网页冲浪大赛”。

xbench-DeepSearch是一个以真实用户需求为中心的研究任务评测集,它考察的是智能体进行深度信息检索和综合分析的能力。简单来说,就是模拟一个真实的研究员,接到一个课题后,如何通过网络搜集资料,并最终形成一份有见地的分析报告。

特别值得一提的是,所有这些令人印象深刻的成绩,都是在模型仅激活其全部参数的十分之一(即3B参数)的情况下取得的。

其中最引人注目的应用,当属在高德地图上的落地。双方的合作模式是“通义团队提供Deep Research模型 + 高德团队提供工具和Agent链路”,共同打造了高德地图App中智能助手“高德小德”的复杂查询体验。

比如,在你即将下班,准备导航去机场时,它能结合实时交通、天气、你的个人偏好等多维度信息,智能地为你规划出一条绕开晚高峰拥堵的最佳路线。再比如,你告诉它“我想计划一个三天两晚的自驾游,要去某个特定的景点,并且要住可以带宠物的酒店”,它就能像一个经验丰富的旅行规划师一样,自动研究并为你生成一份详尽的、个性化的行程单。它还能无缝整合餐饮、住宿、景点等本地生活服务信息,为你提供一站式的出行解决方案。这已经不是简单的“导航”,而是真正意义上的“AI原生出行Agent”。

另一个展现其专业深度的应用是在法律领域。这是一个对专业性、准确性要求近乎苛刻的行业。通义团队将Tongyi DeepResearch的能力注入到“通义法睿”这款产品中,打造出了一个专为法律研究而优化的专业智能体。它能够自动检索相关的法条、类案和裁判文书,并进行深度的归纳和分析。在一场与OpenAI、Claude等国际顶尖模型的同台竞技中,通义法睿在“法条引用相关性”和“案例引用相关性”这两项衡量法律AI核心能力的关键指标上,实现了全面领先,综合表现被评为最优。

通义法睿的核心功能几乎覆盖了法律工作者的日常所需。从基础的法律问答,到复杂的案例法条检索,再到繁琐的合同审查,它都能提供高效的辅助。它能快速阅读并分析冗长的法律文书,提取关键信息,生成摘要报告;甚至能根据用户的需求,自动起草起诉状、答辩状等各类法律文书。这一切的背后,是其创新的Agentic架构与迭代式规划(Iterative Planning)技术,使得它能够高效执行多步查询与复杂推理,实现权威类案的精准检索、法条的智能匹配以及专业观点的深度融合。更重要的是,团队坚持以真实的判例、官方的法规和权威的学术解读作为其知识基础,打造了一个可追溯、高可信的法律分析服务,在法律问答的答案要点质量、案例引用质量、法条引用质量这三大核心维度上,都做到了行业领先。

除了这两个已经成功落地的案例,Tongyi DeepResearch的技术特性,使其在更多领域都展现出了广阔的应用前景。学术研究,市场分析,政策研究,金融分析等领域,它同样大有可为。

这些潜在应用场景都有一个共同的特点:需要处理海量的信息,进行复杂的推理,以及执行多步骤的分析。这恰恰是Tongyi DeepResearch的核心优势所在。

在开源协议的选择上,Tongyi DeepResearch采用了Apache-2.0许可证,这是一种非常宽松的开源协议,它允许用户进行商业使用、修改和分发,而几乎没有什么限制。这一选择,极大地降低了企业和个人开发者进行二次开发的法律门槛和商业风险。

一个开放的技术生态,有助于行业形成统一的技术标准和最佳实践,避免了重复造轮子的资源浪费。

正如通义团队在官方博客中所说的那样:“我们相信,开放是推动技术进步的最佳方式。”

参考资料:

来源:算泥社区

相关推荐