摘要:9月17日,阿里旗下首个深度研究Agent模型通义DeepResearch正式开源,这波操作直接点燃了AI圈,以前大厂藏着掖着的黑科技,阿里居然连技术秘方都公开了。
阿里对AI圈扔出王炸!
9月17日,阿里旗下首个深度研究Agent模型通义DeepResearch正式开源,这波操作直接点燃了AI圈,以前大厂藏着掖着的黑科技,阿里居然连技术秘方都公开了。
这东西狠到什么程度呢,它仅用 30B 参数,就在HLE 榜单上拿了 32.9% 的最高分,把DeepSeek-V3.1、OpenAI 同类型模型都甩在身后,直接霸榜全球第一!
但更重要的是,这模型彻底颠覆了我们对AI的认知,AI以后不再是问答机,而是能自己找答案的真研究员!
现在大家早就习惯直接找AI要答案,但可要是遇到夏威夷两套房2022年谁卖得贵这种需要查资料、核证据的复杂问题,普通AI要么瞎蒙,要么甩一句不知道。
通义DeepResearch不一样,它会自己当研究员,走一套完整的破案流程,先拆问题,再找资料,交叉验证,最后写报告,每一步都有源可溯,跟人类专家干活没两样。
咱们就拿上文提到的夏威夷举个例子,当你问这个AI,2022年夏威夷两套房子哪个卖的贵的时候,它立马就启动四步走。
先拆解任务核心是查2022年成交数据,然后自动联网抓销售记录,接着在多个来源里反复核对价格,最后才给出准信。
如果有人问自己欠债一堆,原告还要求退出资,算不算违反资本维持原则,它会先拆解成:资本维持原则是什么、退出资的法定条件、债务纠纷的影响三个问题。
等搞清楚这些问题后,再调用法条数据库、找类似判例、查学术观点,把零散信息串成逻辑链,最后给出带依据的结论。
不仅如此,就连博士级的跨学科难题它也能扛住。
比如均匀分布的恒星连最近邻居,平均每个星座有几颗星,它会自己开Python算、查
论文、验证模型,最后给你一份详细报告,这哪是AI,简直是个不用开工资的研究助理!
很多人纳闷,30B参数在大模型里不算顶尖,为啥通义DeepResearch能吊打一众对手?
阿里这次开源把底裤都扒了,核心就靠三样东西,“炼金术般的数据、双模式推理、全链路训练。
大模型的智商全看教材质量,可人工标注又贵又少,阿里团队干脆搞了套智能体合成数据体系,让机器自己造高质量教材,彻底摆脱对人工的依赖。
先是增量预训练,它会把海量的文档、网页、知识图谱,甚至模型自己的思考记录,都堆成一个开放世界的记忆库里,再从中抽取知识点。
做好上述工作后,AI就开始模拟各种场景,在生成问题到答案之间还特意加了规划、推理、决策三类动作数据,相当于让模型离线就练了无数遍怎么解决问题。
后训练阶段更狠,他们开发了WebSailorV2这套全自动方案,从真实网站扒信息保证问题够真,故意藏关键信息增加难度,还用集合论建模防止模型偷懒抄近道。
不仅如此,它甚至还能自动生成博士级难题,这套教材比人工标的还准,模型想不厉害都难。
普通AI处理复杂任务,容易把中间信息堆成垃圾堆,越算越乱,这叫认知空间窒息,通义DeepResearch搞了两种推理模式,专治这个毛病。
简单任务用ReAct模式,像个行动派,“思考—行动—观察快速循环,128K长上下文足够应付日常问题。
遇到复杂任务就切深度模式,把大任务拆成好几轮,每轮只留上一轮的核心结论,重新建个干净的工作空间,再分析、整合、推进。
就像写论文先搭框架,再填细节,永远不跑偏。阿里还搞了多Agent并行研究,让多个模型一起干活再汇总,答案更全面。
光有教材和方法还不够,训练过程不能掉链子,阿里打通了预训练到微调再到强化学习全链路,还特意优化了强化学习的算法和基础设施。
算法上改了GRPO框架,用token级损失函数优化目标,还筛负样本防止模型摆烂。
基建上更狠,搭了仿真训练环境、工具沙盒、自动数据管理系统,不用依赖昂贵的实时API,还能让多个模型并行训练。
数据显示,训练时模型的奖励持续涨,还能保持探索欲,不会过早定型。
这技术可不是实验室里的花瓶,早就悄悄赋能阿里的产品了,最典型的就是高德地图的小德助手,背后全是通义DeepResearch的功力。
高德V16版本搞导航+本地生活,你要是说西湖边找家4.5分以上、有儿童餐、离地铁1公里内的浙菜馆,它能瞬间筛出符合条件的店,连路线都给你排好。
想搞奥森Citywalk的话,它立马出三种攻略,精确到时间、餐饮、景点,这就是模型在背后做POI推理、多约束规划的功劳。
法律领域更厉害,“通义法睿用上这技术后,查法条、找判例、审合同的能力直接飙升。
PK下来,它在答案质量、案例引用、法条准确性上,比OpenAI、Claude的同类产品还强,律师们直接省了大半查资料的功夫。
阿里这次开源,不止是扔出一个强模型,更是把“小参数模型也能做深度研究,机器造数据才是未来”的路子指给了所有人。
以前大厂藏着技术当护城河,现在阿里把秘方公开,开发者随便就能搭自己的研究员AI,下一个爆款APP,说不定就从这里冒出来。
说到底,通义DeepResearch的厉害之处,不在于参数多大,而在于找对了让AI学会思考的路子。
当AI不再是只会背答案的书呆子,而是能自己找答案的研究员,很多行业的工作方式都得变。
来源:暮时史分