摘要:2025年9月17日,阿里巴巴旗下通义实验室扔出个“大炸弹”,全面开源通义DeepResearch深度研究智能体,直接冲着OpenAI的旗舰产品DeepResearch去了。
2025年9月17日,阿里巴巴旗下通义实验室扔出个“大炸弹”,全面开源通义DeepResearch深度研究智能体,直接冲着OpenAI的旗舰产品DeepResearch去了。
更有意思的是,这货参数才300亿,却敢说性能和OpenAI那千亿参数的大家伙不相上下,还喊出“效率优势拉满”的口号。
作为天天蹲AI圈瓜的人,这波操作属实让我眼前一亮。
通义DeepResearch最让人觉得“会玩”的,是它的双模型架构。
一个叫AgentFounder-30B,专门负责给智能体打基础做预训练,另一个WebSailor-V2-30B-A3B,靠模拟加真实环境的强化学习来“拔高”能力。
以前总觉得AI模型得堆参数才厉害,千亿参数才算“大佬”,这300亿的规模本来想觉得撑死算个“中端选手”,但后来发现人家靠架构设计,把“轻量级”玩出了“重拳”效果,能处理复杂的长期任务还不费劲。
光说不练假把式,这智能体在权威测试里的表现也挺硬气。
人类最终考试(HLE)拿了32.9分,直接超过了OpenAI的o3模型,BrowseComp测试43.4分,虽然没追上o3的49.7分,但差距已经很小,FRAMES基准测试更狠,90.6分拿了所有测试模型的第一。
这成绩一出来,谁还敢说中国AI企业只能跟在别人后面跑。
而且阿里团队搞训练也挺“省事”,完全不用人工标数据,建了个基于维基百科的模拟环境,让AI自己在里面学,还能根据模型表现实时调训练难度,这种全自动化流程,不仅省了人力,效率也上去了。
更关键的是,他们把整套技术全开源了,模型权重、代码、数据合成方法全给出来,这魄力,比起OpenAI藏着掖着的样子,格局确实大了不少。
这智能体可不是只在测试里厉害,已经在实打实的场景里用起来了,高德地图里那个叫“小高”的AI助手,就装了这技术。
你跟它说“想花三天玩遍苏州,要避开人挤人的景点,住离地铁站近的酒店”,它立马能自己搜景点、挑酒店,把行程排得明明白白。
以前规划个旅行,光查攻略就得花大半天,现在十分钟搞定,对咱们这种懒人来说,简直是“救星”级别的功能。
在法律领域它也挺能打,通义法瑞系统用它做判例检索、法规引用这些专业活,据说它整理出来的法律文档,accuracy和效率能赶上初级法律从业者。
有个专项评估显示,它在案例引用质量上得分64.26,比OpenAI的57.56和AnthropicClaude的40.43高出一大截。
搞不清那些复杂法条的普通人,以后说不定靠它就能少跑几趟律所。
它还有两种“干活模式”,ReAct模式适合做标准化的研究任务,一步步“思考-行动-观察”,重度模式能把复杂任务拆成好几个回合,每个回合都重新建个工作空间,避免处理长内容时“掉链子”。
如此看来,不管是简单的信息检索,还是复杂的学术研究、商业分析,它都能hold住,这才是AI该有的样子,不止是“实验室高手”,更是“实战派”。
阿里这波开源操作,在AI行业里炸了锅,开发者和企业能在HuggingFace、GitHub这些平台免费拿代码、改模型,甚至拿去做商业项目。
对比OpenAI那种“想用先交钱,核心技术绝不外泄”的封闭路子,阿里这招相当于把“武功秘籍”公之于众,让更多人能参与进来改改画画。
从技术架构看,它的训练分持续预训练、监督式微调、强化学习三个阶段,还搞了个AgentFounder数据引擎生成训练数据,用GRPO算法优化模型。
这些东西开源后,中小开发者不用再从零开始搭框架,能省不少事。
对整个AI行业的发展都是好事,大家一起琢磨着改进,总比几家大公司闷头搞垄断强。
不过话说回来,这智能体也不是完美的,它的上下文窗口只有12.8万个token,比起有些新模型的20万个还是差点,处理特别长的文档可能会费劲,而且300亿参数以上的训练效果还没验证过。
很显然,它还有不少提升空间,阿里团队也说要搞动态上下文扩展技术,明年还要试千亿参数模型。
但不管怎么说,通义DeepResearch的出现,给全球开源AI生态添了把猛火。
以前美国企业在高端AI工具领域说一不二,现在中国企业靠技术和开源策略,也能在桌上占一席之地。
并非明智之举的是,未来AI行业要是只靠几家闭门锁国搞技术,早晚得陷入瓶颈。
阿里这波操作,不仅让中国AI露了脸,更给行业指了条“协同创新”的路,大家把技术摆出来一起玩,才能让AI真的帮到更多人。
毫无疑问,这只是个开始,随着更多人基于这个开源框架做创新,以后说不定会冒出更多更厉害的AI智能体。
对咱们普通人来说,以后用AI办事会越来越方便,对行业来说,中国企业也算是在AI竞争里,走出了自己的特色路子。
来源:法之生活一点号