摘要:阿里巴巴正式开源通义DeepResearch智能体,包括模型、框架、方案全部开源,背后核心技术报告也一同公开,在全球AI领域掀起了不小的波澜。这款仅有30B参数(激活3B)的模型,不仅在GitHub上迅速收获超7200颗星标,还在多个权威榜单中超越OpenAI
阿里巴巴正式开源通义DeepResearch智能体,包括模型、框架、方案全部开源,背后核心技术报告也一同公开,在全球AI领域掀起了不小的波澜。这款仅有30B参数(激活3B)的模型,不仅在GitHub上迅速收获超7200颗星标,还在多个权威榜单中超越OpenAI与DeepSeek,拿下全球第一。亮眼成绩的背后,藏着怎样的技术逻辑与应用价值?
从测试数据上看,通义DeepResearch在HLE(Humanity's Last Exam被称为"人类终极测试"的综合能力榜单)榜单中拿下32.9%的最高分,超过DeepSeek-V3.1的29.8%和OpenAI DeepResearch的26.6%。而在OpenAI主导的BrowseComp(侧重网页信息检索与分析能力)任务中,通义以43.4%的准确率领先开源阵营。
30B参数且仅激活3B的"轻量体型",为何能展现出超强实力?小模型是否真能承担复杂逻辑推理任务?从多个真实案例来看,通义完成的不只是问答,而是完整的研究过程。比如,它可以联网查询夏威夷某两处房产的历史交易价格,准确给出哪一套价格更高,还能处理法律争议中关于资本维持原则的复杂判断。
这些能力的核心,源于其区别于传统AI的"研究员式"工作逻辑。通义的关键优势并非简单调用模型输出答案,而是像人类专家一样规划任务全流程:先拆解问题为子任务,再自主调用工具收集信息,最后整合分析形成报告。
这种模式能落地,靠的是两套互补的推理模式:ReAct模式适合标准任务,比如简单数据查询;Heavy模式处理长程复杂任务,比如法律条文梳理,两种模式配合能有效解决传统大模型在长文场景中信息太多导致逻辑混乱、重点遗漏的问题。
支撑起这套推理体系的,是通义在数据训练上的突破性策略。过去,大模型训练往往依赖人工标注数据,成本高、质量不可控。通义团队构建了AgentFounder和WebSailor V2等数据生成系统,能自动生成高质量、难度可控、答案可验证的训练样本,建立了以“机器生成+强化学习”完整的训练闭环。。
通义采用基于ReAct结构的策略优化,还搭建了专门的基础设施保障效果:用仿真训练环境替代昂贵的实时API,用工具沙盒避免工具错误干扰训练,用自动数据管理体系动态优化样本,解决了传统强化学习中"环境不稳导致奖励信号不准" 的痛点,让模型能持续自我进化。
技术最终要落地才有价值,通义的能力早已跳出实验室。在高德地图的“小德助手”与“通义法睿”法律助手中,通义DeepResearch已实现落地。无论是规划复杂的地理路线,还是对法律条文的多轮解释与引用,通义都能完成多步推理、生成具备溯源性的复杂回答。
从30B轻量模型到霸榜全球榜单,通义DeepResearch 的优势不是单点突破,而是合成数据、推理链路、训练闭环构成的系统性胜利。对行业而言,这不仅是阿里在AI领域的一次发力,更标志着 AI 智能体从"被动问答"正式迈入"主动研究"的新时代。
来源:男科医生磊哥