Qwen3 终于来了!全面超越 DeepSeek R1,原生支持 MCP

B站影视 韩国电影 2025-05-16 18:09 2

摘要:尤其是代码能力,LiveCodeBench 和 Codeforces 两个榜单,高于所有其它模型,包括当前最强的 Gemini2.5-Pro。

刚刚,Qwen3 开源了。

强的离谱,DeepSeek 这次真的要坐不住了。

先贴一张图。

从这些主流的学术测试结果来看,Qwen3 全面超越了DeepSeek R1

注意我用的词——“全面”。这不只是在一两个单项上领先,而是在数学、推理、代码等核心能力上,全面超越。

尤其是代码能力,LiveCodeBench 和 Codeforces 两个榜单,高于所有其它模型,包括当前最强的 Gemini2.5-Pro。

在 ArenaHard(综合测试)上, Qwen3-235B-A22B 紧追最强闭源模型 Gemini2.5-Pro ,显著优于 OpenAI-o1 和 Deepseek-R1 。而在 AIME’24/25(美国数学竞赛)、MultiIF(多语言推理)测试基准上,Qwen3 的表现更是全面超越 DeepSeek-R1,坐稳了全球第一开源霸主的名号。

我尤其注意到,Qwen3 在专门评估模型 Agent 能力的 BFCL 评测中,全面刷新了榜单记录,不仅以 70.8 的分数完爆了 DeepSeek-R1(56.9),甚至大幅超越了闭源模型 Gemini2.5-Pro。

Qwen3 在 Agentic 能力方面做了大量的优化,包括不限于任务执行效率、响应结构和工具泛化能力等。也就是说,Qwen3 的设计理念,不再局限于传统的 ChatBot 问答对话视角,而是面向 Agent 化的任务型应用提供了模型层支撑。

甚至,Qwen3 还原生支持了 MCP 协议。

我们来看下官方放出的 Demo 展示:

在大模型如今“从对话走向执行”的关键节点,Qwen3 大幅强化了 Agent 能力,我觉得这是非常值得点赞的。

附 Qwen3 体验传送门(MCP 功能,也即将上线):

需要强调的是,Qwen3 不是单个模型,而是一个全家桶,包含了 8 款不同尺寸的模型——

6 款 Dense 模型: 最小参数 0.6B,依次是 1.7B、4B、8B、14B,到32B,覆盖了从端侧到云端的各种需求。2 款 MoE 模型:Qwen3-30B-A3B: 300 亿总参数,激活参数 30 亿。Qwen3-235B-A22B: 2350 亿参数,激活参数 220 亿。

实力最强的Qwen3-235B-A22B,也是这次发布的旗舰模型。前面性能拉爆的就是这款。

当然,不只是旗舰版能打。其他 7 个模型在各自的量级里,都是 SOTA 级别的存在。

关于开源,我还扒出一组数据——

阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,已超越美国 Llama,成为全球第一开源模型。

附 Qwen3 开源传送门:

huggingface:

熟悉 Claude 的朋友都知道,Claude 3.7 Sonnet 是市场上首个“混合推理模型”,把快速响应和深入推理整合在一个模型中,用户可以根据问题和任务灵活选择是否要思考。

混合推理,简单来说,就是一脑双模,天生就会两种工作模式:

快问快答模式(非推理模式), 比如问一些简单的问题,不需要逻辑推理,这种模式反应快、计算量小,主打一个效率,省时省力省算力。深度思考模式(推理模式),适合比较复杂,要拆解成小步骤,一步步地推演、论证的问题。

怎么切换这两种模式呢?

这里阿里设计得很灵活,一种是硬开关控制, 你可以在调用模型的时候,直接设置一个参数 enable_thinking=True;还可以软开关控制,在 enable_thinking=True 基础上,通过/think 和/no_think 指令来开启推理模式。

是不是有很多人和我一样,有的时候着急要结果,只能看着巨长的思维链干着急。这下解决了,我可以自己控制思考的最大 token 数。

只能说,这个设计太懂用户痛点了。

把这两种看似矛盾的能力和谐地统一在一个模型里,看似简单,实则一点儿不容易,否则就不用刻意分成俩模型了。

阿里自己也说了,这背后需要非常精密的训练策略、巧妙的数据设计和复杂的损失函数调度,才能在同一模型中稳定掌握两种截然不同的输出分布,最重要的是,模式切换时基本不损失性能。

这个是实打实地考验在模型训练方法论上积累的功力。

划重点: 这次开源的 8 个模型,全部都支持“混合推理”机制!

除了效果之外,还有一个很值得关注的信息。

根据官方放出的消息,只需要 4 张英伟达的 H20 GPU,就能在本地把 235B 的 Qwen3 旗舰版 MoE 模型跑起来,直接把部署成本干到了 DeepSeek-R1 的 35%。

H20 虽然不便宜,但相比之前动辄需要几十上百张才能伺候的同级别巨兽,这个门槛可以说是快被按到地板上了。

除了自行部署外,也可通过阿里云百炼直接调用 API 服务。

综合来看,Qwen3 的发布不仅是一次榜单突破,我觉得更是国产 AI 大模型从“对话”走向“执行”的一次关键跃迁。

无论是全面超越 DeepSeek R1 的硬核性能,还是原生支持 MCP 协议的 Agent 能力,亦或是混合推理机制和超低部署成本,Qwen3 都展现了一次恰到好处的升级迭代。

未来,随着 Agent 时代的加速到来,Qwen3 或许将成为推动 AI 应用落地的核心引擎。

我们拭目以待。

来源:夕小瑶科技说

相关推荐