曝阿里巴巴正开发新的 AI 芯片

B站影视 内地电影 2025-09-01 09:32 1

摘要:阿里搞 PPU 未必是为了在外部市场销售层面直接和 NVIDIA 竞争,但绝对是为了更好地服务自家的阿里云和 Qwen 模型,来降低采购 NVIDIA 芯片的成本,也就是走 Google TPU 的路线。

阿里搞 PPU 未必是为了在外部市场销售层面直接和 NVIDIA 竞争,但绝对是为了更好地服务自家的阿里云和 Qwen 模型,来降低采购 NVIDIA 芯片的成本,也就是走 Google TPU 的路线。

这个回答分成两部分聊,NVIDIA 的护城河和自研 AI 芯片。

国外有个半导体分析机构叫 SemiAnalysis,有很多关于模型研发、AI 芯片的信息。前段时间在采访中,SemiAnalysis 的创始人 Dylan Patel 专门聊了聊 NVIDIA 的护城河和竞争对手。

在 Dylan 看来,NVIDIA 的护城河主要体现在五个方面:

技术领先 :NVIDIA 在芯片、网络、HBM 等方面处于领先地位; 供应链优势 :NVIDIA 可以从台积电、SK Hynix 等供应商拿到更先进的工艺、更快的量产和更稳定的产能,具备规模化的成本优势; 生态锁定 :软件层面,依靠 CUDA 形成事实标准,大量社区和开发者围绕 CUDA 社区开发软件,无形中提高了迁移成本; 网络计算 :大型数据中心的瓶颈不只是芯片,更在于网络通信,NVIDIA 通过 NVLink 和 InfiniBand 对网络进行系统级优化,而不仅仅是单颗芯片的领先。 市场飞轮 :NVIDIA 的客户更多,能通过客户需求了解模型训练推理过程中对芯片的需求,进而优化专门的硬件。

Dylan 的核心观点是:NVIDIA 的护城河非常深厚。如果你想仅仅依靠 NVIDIA 做同样的事情就超越它,非常难。需要在硬件能效做到 NVIDIA 的 5 倍,才能对冲其综合优势。

那么, NVIDIA 的生意就真的没有对手,没有风险吗?

Dylan 认为,NVIDIA 有两大潜在危机:

一是 科技巨头们正在「定制自己的 AI 芯片」 :

Google 有 TPU,通过多年的迭代,成为唯一能在性能上与 NVIDIA 高端产品掰手腕的非 NVIDIA 芯片。 Amazon 自己在搞 Trainium 和 Inferentia 芯片,部署在 AWS 云上。 Meta 在研发 MTIA 加速器。 Tesla、xAI 也搞了 Dojo(虽然据说项目被叫停了)。

这里的主要问题在于, 这些科技巨头本身就是 NVIDIA 最大的客户群 。他们研发芯片,虽然(暂时)不是为了在市场上对外销售或者公开叫板 NVIDIA,而只是作为「内部使用」。

但优势就在于 内部使用 ,他们不需要对客户负责,只需要对内部的成本和利润负责。

通过自研芯片,科技巨头可以把之前付给 NVIDIA 的利润,转化为自己的成本优势。

NVIDIA 的第二个潜在危机,就是中美竞争背景下,中国的国产化替代崛起。

不论是因为美国的出口管制,还是中国的国产替代,NVIDIA 事实上没有办法向中国出口最先进的 AI 芯片,这也催生了国产芯片的投入和研发。

说到这里,如果回过头看这次 阿里巴巴传闻中平头哥 PPU ,有没有发现, 上面两条叙事合并到一起了 :

阿里有自己的云服务,它不需要对外直接销售 AI 芯片,只要在自己的云上能跑起来,减少对 NVIDIA 的采购,就是极大的成本节约; 阿里是中国企业,就算想用 NVIDIA,也会因为采购不畅和替代要求,而尽可能转向国产,那自研似乎是更好的选择。

如果再考虑到第三个因素,阿里有当前可以说是全球最全、最强的开源模型家族 Qwen, 自家的 AI 芯片,自家的模型,自家的云,是不是逻辑更通顺了。

过去很多人拿阿里对标 Amazon,认为阿里在电商、云两大领域都向 Amazon 学习。现在,阿里相比 Amazon 的优势反而多出了一款强大的自研、开源模型。

云厂商是最有动机、最有动力去自研芯片、自研模型的,自己把产业链包办,显然是利润率最高的做法。

Google 已经以绝对的实力证明了这一点,如果要比烧钱的话,ChatGPT 无论如何是烧不过 Gemini 的,原因不在于资本,而在于 Google 有 TPU。

同样的,国内的华为云+昇腾,百度云+昆仑芯, 阿里云+平头哥 ,也会是同样的逻辑,区别无非在于是否有余力向外销售芯片。

但不重要,还是那句话,只要能供给自家云、自家模型内部使用,已经是相当大的成功了。

声明:本文没有任何来自阿里的内部信息,仅为个人观点,不构成投资建议。

来源:东窗史谈一点号

相关推荐