阿里扔王炸！AI 登顶全球榜单，30B参数吊打大厂，技术全公开！

摘要：9月17日，阿里旗下首个深度研究Agent模型通义DeepResearch正式开源，这波操作直接点燃了AI圈，以前大厂藏着掖着的黑科技，阿里居然连技术秘方都公开了。

阿里对AI圈扔出王炸！

9月17日，阿里旗下首个深度研究Agent模型通义DeepResearch正式开源，这波操作直接点燃了AI圈，以前大厂藏着掖着的黑科技，阿里居然连技术秘方都公开了。

这东西狠到什么程度呢，它仅用 30B 参数，就在HLE 榜单上拿了 32.9% 的最高分，把DeepSeek-V3.1、OpenAI 同类型模型都甩在身后，直接霸榜全球第一！

但更重要的是，这模型彻底颠覆了我们对AI的认知，AI以后不再是问答机，而是能自己找答案的真研究员！

现在大家早就习惯直接找AI要答案，但可要是遇到夏威夷两套房2022年谁卖得贵这种需要查资料、核证据的复杂问题，普通AI要么瞎蒙，要么甩一句不知道。

通义DeepResearch不一样，它会自己当研究员，走一套完整的破案流程，先拆问题，再找资料，交叉验证，最后写报告，每一步都有源可溯，跟人类专家干活没两样。

咱们就拿上文提到的夏威夷举个例子，当你问这个AI，2022年夏威夷两套房子哪个卖的贵的时候，它立马就启动四步走。

先拆解任务核心是查2022年成交数据，然后自动联网抓销售记录，接着在多个来源里反复核对价格，最后才给出准信。

如果有人问自己欠债一堆，原告还要求退出资，算不算违反资本维持原则，它会先拆解成：资本维持原则是什么、退出资的法定条件、债务纠纷的影响三个问题。

等搞清楚这些问题后，再调用法条数据库、找类似判例、查学术观点，把零散信息串成逻辑链，最后给出带依据的结论。

不仅如此，就连博士级的跨学科难题它也能扛住。

比如均匀分布的恒星连最近邻居，平均每个星座有几颗星，它会自己开Python算、查

论文、验证模型，最后给你一份详细报告，这哪是AI，简直是个不用开工资的研究助理！

很多人纳闷，30B参数在大模型里不算顶尖，为啥通义DeepResearch能吊打一众对手？

阿里这次开源把底裤都扒了，核心就靠三样东西，“炼金术般的数据、双模式推理、全链路训练。

大模型的智商全看教材质量，可人工标注又贵又少，阿里团队干脆搞了套智能体合成数据体系，让机器自己造高质量教材，彻底摆脱对人工的依赖。

先是增量预训练，它会把海量的文档、网页、知识图谱，甚至模型自己的思考记录，都堆成一个开放世界的记忆库里，再从中抽取知识点。

做好上述工作后，AI就开始模拟各种场景，在生成问题到答案之间还特意加了规划、推理、决策三类动作数据，相当于让模型离线就练了无数遍怎么解决问题。

后训练阶段更狠，他们开发了WebSailorV2这套全自动方案，从真实网站扒信息保证问题够真，故意藏关键信息增加难度，还用集合论建模防止模型偷懒抄近道。

不仅如此，它甚至还能自动生成博士级难题，这套教材比人工标的还准，模型想不厉害都难。

普通AI处理复杂任务，容易把中间信息堆成垃圾堆，越算越乱，这叫认知空间窒息，通义DeepResearch搞了两种推理模式，专治这个毛病。

简单任务用ReAct模式，像个行动派，“思考—行动—观察快速循环，128K长上下文足够应付日常问题。

遇到复杂任务就切深度模式，把大任务拆成好几轮，每轮只留上一轮的核心结论，重新建个干净的工作空间，再分析、整合、推进。

就像写论文先搭框架，再填细节，永远不跑偏。阿里还搞了多Agent并行研究，让多个模型一起干活再汇总，答案更全面。

光有教材和方法还不够，训练过程不能掉链子，阿里打通了预训练到微调再到强化学习全链路，还特意优化了强化学习的算法和基础设施。

算法上改了GRPO框架，用token级损失函数优化目标，还筛负样本防止模型摆烂。

基建上更狠，搭了仿真训练环境、工具沙盒、自动数据管理系统，不用依赖昂贵的实时API，还能让多个模型并行训练。

数据显示，训练时模型的奖励持续涨，还能保持探索欲，不会过早定型。

这技术可不是实验室里的花瓶，早就悄悄赋能阿里的产品了，最典型的就是高德地图的小德助手，背后全是通义DeepResearch的功力。

高德V16版本搞导航+本地生活，你要是说西湖边找家4.5分以上、有儿童餐、离地铁1公里内的浙菜馆，它能瞬间筛出符合条件的店，连路线都给你排好。

想搞奥森Citywalk的话，它立马出三种攻略，精确到时间、餐饮、景点，这就是模型在背后做POI推理、多约束规划的功劳。

法律领域更厉害，“通义法睿用上这技术后，查法条、找判例、审合同的能力直接飙升。

PK下来，它在答案质量、案例引用、法条准确性上，比OpenAI、Claude的同类产品还强，律师们直接省了大半查资料的功夫。

阿里这次开源，不止是扔出一个强模型，更是把“小参数模型也能做深度研究，机器造数据才是未来”的路子指给了所有人。

以前大厂藏着技术当护城河，现在阿里把秘方公开，开发者随便就能搭自己的研究员AI，下一个爆款APP，说不定就从这里冒出来。

说到底，通义DeepResearch的厉害之处，不在于参数多大，而在于找对了让AI学会思考的路子。

当AI不再是只会背答案的书呆子，而是能自己找答案的研究员，很多行业的工作方式都得变。

来源：暮时史分

标签：模型技术榜单王炸吊打

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!