摘要:就在与 NVIDIA 和 AMD 相继签署大规模硬件协议后不到一个月,10 月 13 日,OpenAI 又宣布与芯片设计巨头 Broadcom 达成战略合作,双方将共同开发和部署容量高达 10 千兆瓦(GW,Gigawatt)的定制 AI 加速器系统。
就在与 NVIDIA 和 AMD 相继签署大规模硬件协议后不到一个月,10 月 13 日,OpenAI 又宣布与芯片设计巨头 Broadcom 达成战略合作,双方将共同开发和部署容量高达 10 千兆瓦(GW,Gigawatt)的定制 AI 加速器系统。
按照双方联合声明,OpenAI 将负责加速器芯片和系统架构的设计工作,而 Broadcom 则承担开发、生产和部署的重任。首批系统预计将于 2026 年下半年开始部署,整个项目计划在 2029 年底前完成,部署地点将覆盖 OpenAI 自有设施和合作伙伴数据中心。消息公布后,Broadcom 股价在早盘交易中上涨近 10%。
图丨相关公告(来源:OpenAI)
根据双方公布的消息,这批定制芯片将主要面向推理而非训练。训练大模型需要海量并行计算,是 NVIDIA GPU 的强项;而推理——也就是用户每次提问时模型的实时响应——更看重延迟和能效。OpenAI 显然是想在服务端降低成本,毕竟,其平台超过 8 亿的周活跃用户每天产生的查询量是一个惊人的数字,如果定制芯片能让每一次推理都更快、更省电,那么这笔前期投入从长远来看是足够划算的。
OpenAI 的首席执行官 Sam Altman 表示,开发自有加速器是对现有合作伙伴生态的补充,而非替代。他认为,通过将模型、芯片到机架进行一体化设计,能够更有效地提升能源效率,即“从每瓦特电力中获得更多智能”,这直接关系到 AI 技术未来发展的成本和可持续性问题。
图丨双方就本次合作消息发布的播客节目(来源:Youtube)
值得注意的是,双方明确将采用 Broadcom 的以太网解决方案来构建整个集群的扩展网络。这套方案包括了以太网交换机、PCIe 协议以及光模块等一系列连接技术。这一选择与当前市场上部分由专有网络技术(如 InfiniBand)主导的高性能计算集群有所不同。以太网技术因其开放的标准、广泛的生态系统和相对成熟的成本控制,正越来越多地被用于大规模 AI 数据中心的建设中。Broadcom 半导体解决方案部门总裁 Charlie Kawwas 指出,定制化的 AI 加速器与标准化的以太网扩展方案相结合,能为新一代 AI 基础设施提供在成本和性能上都经过优化的选择。
细数过来,这已经是 OpenAI 在短短一个多月内宣布的第三笔重大硬件合作。9 月,该公司先后宣布与 NVIDIA 达成 10GW 的协议,并获得后者高达 1,000 亿美元的投资承诺;随后在 10 月初又与 AMD 签署 6GW 协议,后者将向 OpenAI 提供高达 1.6 亿股普通股的认股权证,可能占 AMD 股本的百分之十。将这三笔协议相加,OpenAI 的硬件承诺总容量已经达到惊人的 26GW,这个数字已经相当于建设数十个超大规模数据中心。
然而与前两笔交易不同,此次与 Broadcom 的合作并不涉及股权投资或股票置换。同时,Charlie Kawwas 在接受 CNBC 采访时明确表示,OpenAI 并非此前市场传闻的那位神秘百亿美元订单客户。他开玩笑说:“我很乐意从我的好朋友 Greg(指 OpenAI 联合创始人兼总裁 Greg Brockman)那里拿到一张 100 亿美元的订单,但他还没给我那张采购单。”《华尔街日报》援引知情人士消息称,这笔交易价值“数十亿美元”,但具体金额未予披露。这种纯粹的商业合作关系,实际上为 OpenAI 提供了更大的战略灵活性——通过自主设计芯片,该公司既能减少对 NVIDIA 和 AMD 等厂商的依赖,又能在与这些供应商的谈判中获得更多筹码。
在 Open AI 之前,实际上已经有不少科技巨头走上自研芯片的道路,Google 的 TPU、亚马逊的 Trainium 和 Inferentia 芯片,以及微软和 Meta 各自的内部项目,都旨在通过软硬件协同设计来获得竞争优势。作为一个相对年轻的公司,OpenAI 在硬件领域的投入规模和速度都十分惊人。公司总裁 Greg Brockman 甚至提到,团队已开始尝试使用 AI 模型来辅助芯片的设计工作,以期发现人类工程师不易察觉的优化点,从而加快开发进程。
当然,定制芯片的道路也充满挑战,其开发周期长、前期投入巨大,且需要软件生态的紧密配合才能发挥全部潜力。此次合作的最终成果,将取决于 OpenAI 的设计能力与 Broadcom 的工程实现能力的结合程度。关于芯片的具体工艺、代工厂商等细节目前都还尚未公布,而这些因素都将直接影响产品的最终表现和交付进度。
另一方面,这些动辄数十亿美元的协议也引发了市场的一些担忧。已经有不少观点将当前局面与 2000 年的互联网泡沫相提并论,认为科技巨头们正用“吉瓦”和“token”这样的新术语来包装投资故事,但其真实的营收和利润基础却仍显单薄。
OpenAI 自身的财务状况也不算轻松。截至今年 7 月,其年度经常性收入约为 120 亿美元,这个数字虽然可观,但与其庞大的支出相比可能只是杯水车薪。公司预计还需要四年才能实现正向现金流,在此期间必须持续投入巨资建设数据中心、采购芯片并支付电费。唯一的好消息或许是,通过让 NVIDIA、AMD 等巨头以投资或股权形式深度参与,OpenAI 实际上将这些关键供应商绑在了自己的战车上——它们投入得越多,就越希望 OpenAI 能够成功,从而保障自身投资的回报。
等到 2026 年下半年首批系统上线时,我们或许能更清楚地看到这场豪赌的成色。届时,OpenAI 能否真正将软件优势转化为硬件创新,Broadcom 的以太网方案能否扛住大规模 AI 集群的严苛考验,以及更重要的——这数百亿美元的投入最终能否转化成产品体验的提升和财务报表的改善,这些问题的答案仍有待时间的检验。
参考资料:
1.https://openai.com/index/openai-and-broadcom-announce-strategic-collaboration/
2.https://www.wsj.com/tech/ai/openai-broadcom-forge-multibillion-dollar-chip-development-deal-58d930d1
3.https://www.tomshardware.com/openai-broadcom-to-co-develop-10gw-of-custom-ai-chips
运营/排版:何晨龙
来源:DeepTech深科技