华泰 | 海外科技:从射月到折戟 - 浅谈特斯拉Dojo的陨落

B站影视 日本电影 2025-08-12 07:18 3

摘要:特斯拉的Dojo超级计算机并非普通的硬件项目,可以说是一次“射月计划”,是对构建一台专门解决AI问题的特殊超算的大胆尝试。然而,据彭博社8/7报道,特斯拉正在解散Dojo项目团队,意味着Dojo已彻底落下帷幕。Dojo的设计哲学是通过复杂的编程来实现高标准的制

从射月到折戟:浅谈特斯拉Dojo的陨落

特斯拉的Dojo超级计算机并非普通的硬件项目,可以说是一次“射月计划”,是对构建一台专门解决AI问题的特殊超算的大胆尝试。然而,据彭博社8/7报道,特斯拉正在解散Dojo项目团队,意味着Dojo已彻底落下帷幕。Dojo的设计哲学是通过复杂的编程来实现高标准的制造工艺,进而获得理论上的峰值性能。然而在核心人才流失、晶圆级封装的良率瓶颈以及外部GPU技术快速迭代的三重压力下,其高昂的研发成本与不确定的商业回报最终难以为继。随着人工智能模型规模的日益庞大和计算需求的持续增长,传统计算架构所面临的性能瓶颈日益凸显。在此背景下,我们依然看好新一代芯片架构如晶圆级集成芯片和粗粒度可重构架构,在突破制造瓶颈和良率问题后,有望提升AI计算效率与灵活性。

Dojo架构的雄心壮志是什么?

Dojo的设计哲学是极致优化,即通过剥离一代通用计算功能,打造出一个精简的、大规模并行的训练“猛兽”。其架构建立在两个激进的AI内存墙和互联墙的破局设计之上:1) 无缓存的双层存储系统。Dojo的D1计算芯片完全摒弃了传统的缓存层次结构和虚拟内存,354个内核都能直接访问1.25MB的本地SRAM。这通过去除复杂的内存管理硬件,最大化了计算密度和功耗效率。然而,这是典型的NUMA(Non-Uniform Memory Access)结构:不在本地SRAM中的数据必须从位于独立的DIP(Dojo Interface Processors)上的系统级HBM中获取,跨越互连结构的回路会产生显著延迟,代价是将内存管理的全部复杂性转移至软件层面,并在本地SRAM与远端HBM之间形成了巨大的性能鸿沟。2) “无胶化(Glueless)”的晶圆级互连。Dojo目标的真正核心是其互连设计。特斯拉利用台积电的InFO_SoW(晶圆上集成扇出, Integrated Fan-Out System on Wafer)技术创建了“Training Tile”训练单元,其并非PCB板,而是建立在载体晶圆上的单一、巨大的多芯片模组,以5x5阵列的方式容纳25个D1芯片。这些芯片专为“无胶化”通信而设计,通过数千个高速SerDes链路直接连接到相邻芯片,创造了一个统一的计算平面,可达36TB/秒片外带宽,消除困扰传统超算的网络瓶颈。

如何从Dojo的失败中吸取经验?

Dojo的前瞻设计同时也是其弱点,Dojo的失败并非单一技术问题,而是三大深层原因共同作用的结果:1)人才流失。复杂技术需要深厚的知识储备,据彭博报道,2023年Dojo负责人Ganesh Venkataramanan离开后成立了竞对初创公司DensityAI,目前约 20 名核心工程师也离开特斯拉并加入DensityAI。另外,现任 Dojo 负责人 Peter Bannon 据彭博报道也将离开特斯拉,导致攻克Dojo高度定制化架构所需的技术积淀与Know-how严重流失。2) 良率缺陷。晶圆级互连理论上很“聪明”,但在产业制造过程中却极具挑战性。在晶圆尺寸的模组上,任何微小的布线缺陷或25颗D1芯片中任一的贴装瑕疵,都可能导致高价值的Training Tile整体报废。低良率使得规模化部署的成本高昂,较难具备商业上的经济可行性。3) 战略层面转为以实用为先。Dojo在延期和低良率中受阻,而外部供应商英伟达和AMD等GPU性能与生态系统持续高速发展。因此对于特斯拉而言,追求高风险内部项目的成本效益比开始衰减。特斯拉已将战略重心转向更为务实的方案,即加强与英伟达、AMD、三星等产业链伙伴的合作。特斯拉于7/27宣布,与三星签订了165亿美元的合同来制造其AI6推理芯片,并在训练算力集群方面加强了对英伟达和AMD的依赖。

风险提示:市场竞争加剧,技术落地能力不足。本报告所涉未上市或未覆盖公司,仅基于公开信息整理,不构成推荐或覆盖意见。

从射月到折戟:浅谈特斯拉Dojo的陨落 马斯克宣布中止Dojo超级计算机项目并非临时决策,而是多重因素叠加的结果,其背后原因主要来自于:技术瓶颈、成本压力及核心人才流失,这三个原因最终促使公司选择放弃其内部的超级计算机研发。

原因#1:始于人才外流

Dojo项目的首个重大冲击来自核心团队集体流失。据彭博社报道,2023年Dojo负责人Ganesh Venkataramanan离开后成立了竞对初创公司DensityAI,目前约 20 名核心工程师也离开特斯拉并加入DensityAI。另外,现任 Dojo 负责人 Peter Bannon 据彭博报道也将离开特斯拉。这使项目在研发与执行层面出现明显真空。DensityAI聚焦为机器人、AI Agent及汽车领域的AI数据中心提供芯片、硬件及软件解决方案,产品方向与Dojo高度重叠,直接进入特斯拉原本拟依托Dojo抢占的市场赛道。公司由前特斯拉AI与芯片研发骨干创立,包括Ganesh Venkataramanan、Bill Chang、Benjamin Floerin等Dojo核心负责人及技术骨干。

原因#2:战略转向经济性,并开始依靠外部合作伙伴

面对核心团队流失带来的执行压力,特斯拉加快调整战略,转向依赖行业领先厂商的成熟方案,以降低研发及量产风险。公司正显著提升向英伟达与AMD的采购比例,因直接引入同类最佳、经过验证的AI硬件,可以避免从零开发所需的高投入与不确定性,确保完全自动驾驶(FSD)及Optimus机器人等关键产品路线图不受内部硬件瓶颈影响。同时特斯拉与三星签订总额165亿美元的合同,在德克萨斯州生产下一代AI6推理芯片,可印证公司向实用性战略的转变。

马斯克长期将Dojo定位为高风险、高回报的“前瞻性项目”,其可行性核心在于:定制化架构在性能上的优势能否足以抵消所需的巨额投入与研发难度。然而,随着英伟达Blackwell、Rubin系列及AMD MI350、MI400系列等高性能芯片相继推出,Dojo的潜在性能领先空间明显收窄。在内部成本持续攀升、项目进度多次延期且需从其他战略重点转移资源的背景下,项目风险已部分兑现,而回报的不确定性显著上升。在公司充分考虑成本效益平衡下,已转而倾向于外部成熟方案。

原因#3:架构复杂难以驾驭,产业链存在制造瓶颈

Dojo项目的核心矛盾源于其颠覆性的设计理念。该架构摒弃了传统CPU/GPU的通用性设计思路,专注于将AI训练负载的计算密度与能效推向极致。然而,这种对特定目标的极致追求,导致其在内存和互连系统上引入了极高的技术复杂度。这种设计在理论上性能卓越,但在工程实践与量产中面临的挑战巨大,最终成为项目失败的根本原因。

内存架构:无缓存的双层系统

Dojo的内存设计摒弃了通用计算中的标准功能,创造了一个在特定工作负载上高度优化但在编程和管理上具有挑战性的系统。在核心层面,Dojo放弃了传统的数据侧缓存和虚拟内存支持。D1芯片上的354个处理核心中均没有L1/L2/L3缓存层次结构,而是直接访问本地1.25MB的SRAM块。通过移除高速缓冲存储器标签(Cache tags)、一致性状态位(State bits)、TLB和硬件页表遍历(Page-walking hardware),Dojo节省了大量的芯片面积和功耗,允许更密集的计算阵列。然而,这一设计的代价是将内存管理(如数据局部性、预取等)的全部复杂性转移至软件与编译器层面,极大地增加了编程难度。

在内存层面,系统呈现出典型的双层非统一内存访问(Non-Uniform Memory Access, NUMA)架构,包括:1)本地内存层 (SRAM):每个核心私有的1.25MB高速SRAM,作为主要的计算工作区,访问延迟极低;2)远端内存层 (HBM):由HBM2e/HBM3构成的大容量系统内存。关键在于,该层内存无法被D1计算核心直接寻址,而是挂载于计算阵列边缘独立DIP(Dojo Interface Processors, Dojo接口处理器)上。核心若要访问HBM,其请求必须穿越复杂的片上网络(NoC)抵达DIP,延迟远高于访问本地SRAM。

这种设计导致核上SRAM与片外HBM之间形成了巨大的性能鸿沟(Performance Cliff),对软件调度和数据排布提出了极为苛刻的要求,进一步加剧了软件栈的开发与优化挑战。

互连结构:“无胶化”晶圆级设计

Dojo的互连架构是其设计的核心亮点,亦是其技术实现中最具挑战的一环。其目标在于通过多层级的定制化设计,构建一个具备超高带宽的大规模统一计算平面。该架构主要包含两个层面:

1) 片上互连采用二维网格 (On-Chip 2D Mesh) :在单颗D1芯片内部,集成了354个计算核心,并以二维网格结构进行排布。这种设计实现了极高带宽和低延迟的核心间通信,为大规模并行计算中的数据共享与同步等操作提供了高效的底层支持。

2) 晶圆级集成下的训练单元 (Training Tile) :这是Dojo架构复杂性的集中体现,也是其良率问题的核心瓶颈。Training Tile并非传统的PCB电路板,而是基于台积电的InFO_SoW(晶圆上集成扇出, Integrated Fan-Out System on Wafer)技术,在同一基底晶圆上构建的超大尺寸多芯片模组。该模组以5x5阵列集成了25颗D1芯片。D1芯片的边缘设计了576个高速双向SerDes,实现了芯片间的“无胶化(Glueless)”直接互连,即无需任何外部桥接芯片即可通信。这种设计使得每颗D1芯片能够与其四周的邻近芯片直接通信,单颗芯片的总I/O带宽高达8TB/s。最终,单个Training Tile的总片外带宽可达36TB/秒,这一指标远超传统数据中心网络交换设备的能力,是其性能领先的关键。

为实现超越单个训练单元(Training Tile)的规模化部署,Dojo采用了多层级的物理集成方案:通过定制化的高密度连接器,将多个训练单元集成为一个系统托架(System Tray),通过托架间的互连,组成完整的机柜(cabinet),并最终形成庞大的exaPOD计算集群。系统的对外通信由DIP承担。DIP作为连接主机系统的“网关”,通过支持特斯拉自研传输协议(TTP)的标准PCIe 4.0总线与服务器进行数据交换。

然而,Dojo最具雄心的晶圆级集成方案,也构成了其最大的可制造性难题。高良率地制造一个晶圆尺寸、包含25颗D1芯片和数千个高速互连的复杂模组,对现有工艺是巨大的考验。基底晶圆上任何微小的布线缺陷,或是在D1芯片的贴装与键合过程中出现任何瑕疵,都可能导致整个价值不菲的训练单元直接报废,从而造成良率损失。

Dojo的设计哲学,本质上是通过复杂的编程来实现高标准的制造工艺,进而获得理论上的峰值性能。精简的内存模型需要复杂的软件,前瞻性的晶圆级互连将半导体制造工艺难度推到了极限,创造了一个在概念上出色但在规模化实现上极其困难的系统。

直接后果体现:极低的良率

这种架构复杂性的直接后果是极低的制造良率。由于新颖设计和芯片集成互连结构所需的高精度,Dojo 芯片中有较高比例有缺陷且无法使用。这个制造瓶颈是最终的技术障碍,架构层面的前瞻设计最终导向了产业链的刚性制约。

可以说,Dojo项目的终止是必然结果,其核心在于特斯拉的宏大技术构想与半导体产业客观规律之间的尖锐矛盾。前者是特斯拉打造完美AI超算的“执念”,后者则是半导体制造严苛的物理规律与经济成本。当能够平衡二者的核心技术团队离开后,项目的失败便无可避免。Dojo 是一次雄心勃勃的“射月”计划,但最终还是回到了地面。这次尝试划定了特斯拉技术愿景的边界,也为行业留下了关于技术路线与商业化可行性的深刻启示。

市场竞争风险:AI芯片领域的市场竞争正日益加剧。除英伟达、AMD、英特尔等传统芯片巨头外,谷歌、亚马逊、微软、Meta等科技巨头亦加速布局自研ASIC,加大垂直整合力度。

技术落地能力不足:作为一项相对新兴的技术路线,晶圆级集成的发展高度依赖于先进封装、制造工艺及系统级协同优化的持续进步与有效整合。这将对企业在晶圆级架构上的长期研发能力与技术储备提出更高挑战。

本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

来源:新浪财经

相关推荐