“大就是好”,但技术男阿里云并不执著“上头条”

B站影视 日本电影 2025-09-29 17:42 1

摘要:对于一贯低调的阿里“第一个程序员”而言,这并不寻常。要知道,去年的云栖大会,吴泳铭还只是以读稿的形式发言,甚至略显紧张。

(文/观察者网 张广凯 编辑/吕栋)

9月24日的云栖大会主论坛上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭进行了25分钟的PPT演讲。

对于一贯低调的阿里“第一个程序员”而言,这并不寻常。要知道,去年的云栖大会,吴泳铭还只是以读稿的形式发言,甚至略显紧张。

比现场观众反应更热烈的,是资本市场。几乎就在吴泳铭演讲结束的同时,港股阿里巴巴股价快速拉升,当日大涨9.16%。

即使在中国科技资产重估的大背景下,像阿里这样信息高度透明的大块头突然出现如此涨幅,仍然是不寻常的。投资者看到了什么?

吴泳铭的演讲中的确透露了一些增量信息和乐观判断,比如:

大模型作为下一代的操作系统,将会吞噬软件;

未来全世界可能只会有5-6个超级云计算平台;

阿里云在三年3800亿的AI基础设施建设计划之外将追加投入;

2032年阿里云全球数据中心的能耗规模将提升10倍。

但即使是纵观整个云栖大会,真正超预期的信息也并不多,恐怕不足以解释市场的强烈反应。无论是大模型的研发迭代,还是AI云“一哥”的竞争,乃至芯片和算力布局,阿里云都不追求“憋大招”,而是在确定性最强的方向上试图稳扎稳打。

事实上,当日的市场反应更像是此前相当长一段时间内积累的情绪释放,阿里云的小步快跑,让一种模糊的印象正逐渐得到加强——或许阿里并不总是占据AI行业的“头条”,但是其大而全的深厚技术积累会长期让自己立于不败之地。

就像吴泳铭本人一样,阿里作为“技术男”的形象愈发深入人心。而对体量足够大的阿里来说,克制有时候也是一种优势。

“大就是好”

从年初开始,阿里云作为“AI界汪峰”的名号不胫而走。

起因是大年初一,阿里云发布通义千问旗舰版模型Qwen2.5-Max,其综合能力超过DeepSeek V3,成为最强的国产非推理模型。

选在这个时间点发布,阿里云显然是瞄准了春节期间的C端流量。

但是结果大家都知道了,就在几天前,DeepSeek发布了推理模型R1,成为整个春节期间绝对意义上的主角。

此后,尽管DeepSeek迭代速度不尽人意,Qwen则持续刷榜,可是在公众的认知中,Qwen始终难以同DeepSeek抗衡。

而阿里云似乎也逐步放下了“抢头条”的执念。

在本次云栖大会上,阿里云CTO周靖人一口气宣布了7款大模型的升级。不过,相比于春节那次发布,此次的7连发少了几分刻意。

以最新的旗舰模型Qwen3-Max为例,其实早在本月初,其Preview版就已经在深夜低调上线,宣告通义进入万亿参数时代。

在LMArena上,Qwen3-Max Preview的评分已经出炉,排在文本处理能力的第三位,能力介于ChatGPT-5-chat和ChatGPT-5-high之间,是前十名中唯一的中国大模型。

(注:LMArena采用了经过复杂调整的排名方式,旨在去除一些统计偏差,其排名反映的是模型能力等级,而非完全取决于其身前模型的数量)

周靖人指出,Qwen3-Max的正式版本比Preview又有了明显提升,其Instruct版本在代码能力和Agent工具调用能力上都达到一梯队水平,Thinking版本则在数学能力测试中取得国内最佳成绩。

在介绍Qwen3-Max时,通义官方使用了一个词:“大就是好”。

换句话说,Qwen3-Max能力提升的核心仍然是Scaling Law。除了万亿参数量之外,其预训练数据量也从18T提升到36T。

通义官方认为,当前有部分学者认为预训练的Scaling Law即将逼近上限,而Qwen3-Max的性能突破显示,继续增大数据、模型参数,依然能锻造出更强的模型,给予了大家更多的信心。

除了参数量和数据量的提升外,Qwen3-Max也在紧跟算法创新的最新方向。

通义实验室算法专家介绍,此前Qwen3发布后,团队总结了模型仍然存在的缺点,即混合思考性能有损、强化学习不稳定、上下文128k不够。

为此,Qwen3-Max拆分出了Instruct和Thinking两个版本,分别注重快慢思考;在强化学习算法上引入了自研的GSPO,取代了DeepSeek采用的GRPO,并将上下文扩展到1M。

通义还发布了下一代基础模型架构Qwen3-Next,主打超稀疏的MoE架构,模型总参数80B,仅激活3B即可媲美当下Qwen3旗舰版235B的效果。

观察者网了解到,这主要得益于线性注意力和自研的门控注意力相结合的混合架构、多 token 预测(MTP)机制等,并将激活专家占比从1:16进一步减少为1:50,使得训练和推理效率都大大提升。

其实,这些技术层面的创新仍然可以用“大就是好”来概括——虽然并非颠覆性创新,却试图比对手走得更远一步。

而最核心的指导思想,也被归纳为Scaling is all you need——大模型的方向,依然是更大。

类似地,通义此次发布了多款多模态模型的升级,以及全模态融合的Qwen3-Omni。阿里云通义大模型业务总经理徐栋对观察者网介绍,通义团队相信模型架构走向统一一定是未来的趋势,包括多模态的统一和快慢思考的统一。

但从行业来看,架构统一仍然处于早期阶段,包括通义和阶跃星辰等多模态玩家,眼下追求的也不是拿出一个超级模型,而是尽可能多地在各个模态上广泛布局。这未尝不是另一种“大就是好”。

或许公众层面会对一次颠覆性的创新更加印象深刻,但周靖人对观察者网直言,“模型的发展是一个循序渐进的过程,而不是‘憋大招’的逻辑,海内外所有厂商都是渐进式发展起来的,重要的是加快模型迭代和创新的速度。”

阿里云方面也强调,自2023年开源第一款模型以来,通义大模型在全球下载量突破6亿次,衍生模型突破17万个,已发展成为全球第一开源模型。

激战与克制

阿里云的“大”,当然不仅仅是模型的大,更在于其中国最大云服务商的底色。

有意思的是,围绕AI云的规模,国内同行间最近正展开另一场激烈的“抢头条”暗战。

其中最引人注目的无疑是字节旗下的火山引擎。

就在云栖大会期间,很多人发现,阿里“大本营”杭州的机场航站楼广告,却被火山引擎占领了。

甚至,火山引擎的开屏广告,还出现在了本该是竞争对手的百度地图APP上。

在这些广告上,火山引擎试图打造自己“大模型第一云”的心智。

就在两三年前,火山引擎还只是服务字节内部生态为主的搅局者,但是国际数据公司IDC本月发布的一份报告却显示,2025年上半年,中国公有云上大模型调用量达536.7万亿tokens,火山引擎以49.2%的市场份额位居中国市场第一,而阿里云以27%屈居第二。这里面还没有包括豆包等字节自家大模型产品的调用数据。

当然,这个数据仅仅显示了MaaS市场的部分面貌。由于Qwen家族模型以开源为主,大量客户并非以MaaS形式去调用API,而是自己在阿里云上部署模型,这部分数据并没有被统计进去。

Omdia几乎同时发布的一份报告,则包含了IaaS、PaaS与MaaS等整体口径,显示2025年上半年中国AI云市场中阿里巴巴占比达到35.8%,市场份额相当于二到四名之和。

沙利文近日发布的报告则指出,在已采用生成式AI的财富中国500强中,超53%企业选择阿里云,显示出阿里云在大客户端的传统优势。

密集发布的各种不同口径报告,折射出云厂商之间的激烈暗斗。不过在另一面,直接的价格战似乎正在降温。

低价是火山引擎最强大的武器。尽管火山引擎总裁谭待否认“亏钱换市场”,但他也仅仅指出火山的毛利为正。

今年6月,豆包1.6又首创按“输入长度”区间定价,使综合使用成本降至豆包1.5深度思考模型的三分之一。

但是今年以来,包括DeepSeek在内的多家大模型调用价格开始不降反涨,阿里云的最近一次全面降价也停留在2024年的最后一天。

接近阿里云的人士向观察者网透露,阿里云不会再以亏钱的代价做大营收,新的领导层对此想得非常清楚。

其进一步指出,在过去多年中,阿里云经历了华为云、运营商云等多个挑战者,仍能保持市场领先地位,如今的心态也更加自信。

在本次大会上,我们还可以看到更多阿里云克制的信号。

例如,在时下话题度颇高的超节点技术上,尽管阿里云也发布了类似产品,但并未突出宣传。一位阿里云技术专家指出,超节点的优势场景仅仅在于分布式推理,但是在训练环节并无显著提升,且随着超带宽域增加会带来残酷的可靠性难题。

很多参会者都向观察者网提到,相比于其它厂商的类似活动,云栖大会有着更浓厚的技术和务实风格。

阿里云更显著的务实风格当然还是体现在C端市场。当字节豆包、腾讯元宝纷纷依托自身社交生态大力推广自家聊天应用时,通义APP则始终不愿意花钱买用户。在国内C端付费极不发达的生态下,这样的选择自有合理性。

但是与传统的云服务市场不同,AI大模型势必将是深度进入C端市场的变革,并且DeepSeek和豆包都证明,其C端表现也会间接影响B端心智。阿里云的克制是否明智,仍然有待时间检验。

硬件的变数

事实上,尽管没有高调宣传,阿里云在AI Infra层面的进展正在加速。

本月初有媒体消息称,阿里已经开发了一款新的AI芯片,适用于大模型推理场景,能够接近英伟达H20的水平,由国内晶圆厂代工,并且还兼容英伟达生态。

此后,央视《新闻联播》公开报道了中国联通三江源绿电智算中心项目建设成效,其中阿里平头哥拿下最大订单,以16384 张算力卡提供 1945P算力,大致与上述消息相符。

在网络层面,阿里云也在云栖大会上发布了新一代高性能网络HPN 8.0采用训推一体化架构,存储网络带宽拉升至800Gbps,GPU互联网络带宽达到6.4Tbps,可支持单集群10万卡GPU高效互联,为万卡大集群提供高性能、确定性的云上基础网络。

再加上128超节点等技术,阿里云在AI Infra上的全栈布局已经基本成型。在英伟达入华阻力越来越大的当下,阿里云有望在国产替代大潮中分得远超此前预期的份额。

但是,随着越来越多的云服务商开始自研芯片,它们与第三方供应商的关系或许也变得微妙起来。

近日有消息称,在芯片领域基础相对薄弱的字节,也已经与台积电合作研发两款AI芯片,有望于2026年量产。

目前,阿里云和字节都采购了大量华为昇腾芯片。但是华为云近期也实施了“史上最大规模组织优化”,大幅收缩传统云服务业务,将重心进一步转向AI算力。

如此一来,阿里云和火山引擎作为客户厂商,是否会在同华为云的竞争中处于先天劣势?其自研芯片能否快速支撑起算力端需求?

甚至,其它第三方算力芯片供应商,是否也会在大厂激烈的竞争中走向阵营绑定?不同阵营的技术路线和商业风险又会怎样影响行业格局?

国产芯片的集团化崛起,固然是国家之幸,但身处局中者,也难免面临巨大变数。

来源:新浪财经

相关推荐