摘要:从年初的DeepSeek,到如今的通义深度研究代理,国产AI正以令人意想不到的速度,把开源智能体的天花板一层层打穿。阿里巴巴统一实验室刚刚开源的这款“Tongyi DeepResearch Agent”,用不到OpenAI五分之一的参数量,打出了几乎同等的效果
从年初的DeepSeek,到如今的通义深度研究代理,国产AI正以令人意想不到的速度,把开源智能体的天花板一层层打穿。阿里巴巴统一实验室刚刚开源的这款“Tongyi DeepResearch Agent”,用不到OpenAI五分之一的参数量,打出了几乎同等的效果,甚至在一些关键任务上反超。这不仅是技术突破,更是中国AI正式进军“智能体时代”的一个关键拐点。
这款代理模型的参数总量是300亿,但在实际运行时,只激活其中的30亿,节能高效得惊人。别小看这个“缩水版”,它的成绩却一点不缩水:
在Human-Level Evaluation(HLE)测试中,得分32.9,直接超过OpenAI的o3模型;在BrowseComp测试中拿下43.4分,逼近o3的49.7;在极具挑战性的FRAMES评估中,更是以90.6分高居榜首。要知道,OpenAI的o3可是目前业内公认的顶级闭源代理,而通义深度研究代理却是完全开源,且参数轻量。阿里这一次,不是靠堆资源硬上,而是靠结构设计和训练策略的革新,打出了“以小博大”的漂亮一仗。
这背后是一整套自动化训练流程支持:研究团队搭建了一个基于维基百科的模拟环境,不依赖人工标注数据,AI可以在类真实网页环境中反复学习。加上动态数据调度引擎,能根据模型表现实时调整训练难度,训练效率自然也水涨船高。
此外,模型结构也非常讲究。它由两部分组成:
AgentFounder-30B:负责代理能力的通用预训练;WebSailor-V2-30B-A3B:通过模拟与现实交互的强化学习,补强模型在复杂任务中的适应力。这种“双引擎”架构,既保证了模型的通用性,也增强了它处理长期任务的能力。
技术落地,是检验AI代理含金量的试金石。通义深度研究代理,已经在多个业务场景中实打实地跑了起来。
比如你在高德地图用“小高”做旅行规划时,它能听懂你的自然语言输入,自动搜索景点、识别哪些酒店宠物友好,最后输出一份个性化行程推荐。听起来简单,其实背后是几十步网页操作和信息筛选的复杂任务。
在法律研究领域,它还能精准检索案例、交叉引用法规,准确率、效率都达到初级律师的水平。在专项测试中,它在案例引用质量上的得分是64.26,明显优于OpenAI(57.56)和Anthropic Claude(40.43)。
更厉害的是,它支持两种推理模式:
ReAct模式:适合标准任务,“思考-行动-观察”循环操作;IterResearch模式:面对复杂任务,会自动拆解为多个回合,每回合都重建上下文环境,避免长对话中的信息遗失。这意味着,不管是规则清晰的任务,还是多轮复杂任务,它都能应对自如。
阿里这次的选择是彻底开源,连模型权重、训练代码、工具链都一并放出,许可证是Apache 2.0——这意味着你不仅可以个人玩,还可以直接商用。
目前,这款代理已可以在GitHub、HuggingFace和ModelScope等平台上获取。这对开发者、创业者,甚至中小企业来说,都是极大利好。过去只有大公司能用得起强力AI代理,现在人人都能上手。
更重要的是,阿里的开源不是孤例。今年以来,从DeepSeek到百度、Kimi、百川等多个国产模型,已经在多个领域实现了对美国闭源模型的局部超越。尤其是在工具调用、网页浏览、复杂任务推理等场景,中国开源AI正逐步逼近甚至赶超国际一线水平。
当然,通义深度研究代理也不是没有短板。它的上下文窗口还只有128K,相比GPT-5等256K的超长上下文,处理极长任务时可能略显吃力;另外,目前的强化学习策略还没有在更大规模(如百亿级以上)上验证,未来仍有优化空间。
但总体来看,它的意义已经远超一个模型本身。它代表了一种新的AI开发范式——不靠堆资源、靠高效结构和开源生态,就能跑出高质量成果。这不仅降低了AI应用门槛,也为全球AI多元化格局注入了新变量。
阿里的通义深度研究代理,不只是中国AI的一次技术突破,更是开源智能体迈向实用化、商业化的重要标志。它用轻量架构打出了高性能,用真实应用验证了价值,用开源生态带动了行业发展。
接下来,中国AI的“DeepSeek时刻”不会是一次,而会是接连不断的浪潮。
来源:老闫侃史