摘要:在大型处理器上检测故障核心并将其禁用是一项挑战,但特斯拉开发了 Stress 工具,该工具不仅可以在 Dojo 处理器上检测容易出现静默数据损坏的核心,还可以在拥有数百万个核心的 Dojo 集群中检测核心,而无需将其离线。这项功能至关重要,因为特斯拉表示,单个
在大型处理器上检测故障核心并将其禁用是一项挑战,但特斯拉开发了 Stress 工具,该工具不仅可以在 Dojo 处理器上检测容易出现静默数据损坏的核心,还可以在拥有数百万个核心的 Dojo 集群中检测核心,而无需将其离线。这项功能至关重要,因为特斯拉表示,单个静默数据错误就可能毁掉需要数周才能完成的整个训练过程。
特斯拉的 Dojo 是目前全球最大的两款处理器之一。这些巨大的晶圆级芯片使用整块 300 毫米晶圆,这意味着一次性构建更大的计算能力根本不可能。每个 Dojo 晶圆级处理器最多可容纳 8,850 个核心,但其中一些核心在部署后可能会引发静默数据损坏 (SDC),从而破坏大规模训练运行的结果。
大型处理器
鉴于 Dojo Training Tile(大型晶圆尺寸芯片)的极端复杂性,即使在制造过程中也不容易检测到有缺陷的芯片,但是当涉及到静默数据损坏(SDC)时,事情会变得更加复杂。
请记住,所有类型的硬件都不可避免地会出现 SDC,但 Dojo 处理器的电流消耗高达 18,000 安培,功耗高达 15,000 瓦,这会产生影响。不过,所有核心都应该按预期运行,否则特斯拉的 AI 训练将变得更加复杂,因为数据损坏导致的一个错误就可能使数周的 AI 训练付诸东流。
特斯拉将每个晶圆级 Dojo 处理器称为“训练块”。每个训练块包含 25 个 645 平方毫米 D1“芯片”,这些芯片具有 354 个定制的 64 位 RISC-V 内核,配备 1.25 MB SRAM 用于数据和指令(特斯拉称之为节点,但为了便于理解,我们将其称为内核),这些内核以 5×5 集群的形式组织,并使用具有 10 TB/s 定向带宽的机械网络互连。
每个 D1 还支持 4 TB/s 的片外带宽。因此,每个“训练块”包含 8,850 个内核,支持 8 位、16 位、32 位或 64 位整数以及多种数据格式。特斯拉使用台积电的 InFO_SoW 技术封装其晶圆级 Dojo 处理器。
需要适当的维护
为了应对核心故障风险,特斯拉首先部署了一种差分模糊测试技术。该初始版本需要生成一组随机指令,并将相同的序列发送到所有核心。执行后,会比较输出以查找不匹配项。然而,由于主机和 Dojo 训练模块之间的通信开销巨大,该过程耗时过长。
为了提高效率,特斯拉改进了该方法,为每个核心分配一个由 0.5 MB 随机指令组成的独特有效载荷。核心不再与主机通信,而是在 Dojo 训练模块内相互检索有效载荷并依次执行。这种内部数据交换利用了 Dojo 训练模块的高带宽通信,使特斯拉能够在显著缩短的时间内测试约 4.4 GB 的指令。
随后,特斯拉进一步增强了该方法,允许内核多次运行每个有效载荷,而无需在每次运行之间重置其状态。这项技术为执行环境引入了额外的随机性,使得原本可能无法检测到的细微错误得以暴露。该公司表示,尽管执行次数有所增加,但与检测可靠性的提升相比,速度下降微不足道。
另一项改进是使用 XOR 运算定期将寄存器值集成到指定的 SRAM 区域,这将识别有缺陷的计算单元的概率提高了 10 倍(在已知有缺陷的核心中进行测试),而不会显著降低性能。
不仅在处理器层面
特斯拉的方法不仅适用于 Dojo 训练模块级别或 Dojo Cabinet 级别(包含 12 个 Dojo 训练模块),还适用于 Dojo Cluster 级别,使该公司能够从数百万个活动核心中识别出故障核心。
报告称,经过适当调整后,压力监控系统在 Dojo 集群中发现了大量存在缺陷的核心。不过,检测时间的分布差异很大。大多数缺陷是在每个核心执行 1 GB 到 100 GB 的有效载荷指令后发现的,这相当于几秒到几分钟的运行时间。更难检测的缺陷可能需要 1000 GB 以上的指令,这意味着需要几个小时的执行时间。
值得注意的是,特斯拉的压力测试工具运行轻量级且独立于核心内部,因此它可以在后台进行测试,而无需核心离线。显然,只有被识别为故障的核心才会被禁用,即使如此,每个 D1 芯片也能容忍少数核心被禁用,而不会影响整体功能。
识别设计缺陷
特斯拉还提到,除了检测到故障核心外,压力工具还发现了一个罕见的设计级缺陷,工程师们通过软件调整成功解决了该缺陷。在监控系统更广泛的部署过程中,还发现并纠正了低级软件层中的几个问题。
目前,Stress 工具已完全集成到 Dojo 集群中,用于在 AI 主动训练期间对硬件健康状况进行现场监控。该公司表示,通过此监控观察到的缺陷率与Google和 Meta 发布的缺陷率相当,这表明该监控工具和硬件与其他公司使用的水平相当。
在后硅和前硅阶段
特斯拉目前计划利用其压力测试获得的数据来研究硬件因老化而导致的长期性能下降。此外,该公司还计划将该方法扩展到硅片投产前的测试阶段和早期验证工作流程,以便在生产前就能发现上述故障。尽管由于老化可能导致系统缺陷 (SDC),因此很难想象如何实现这一目标。
思考
开发和制造晶圆级处理器是一项极其复杂的任务,业内只有两家公司——Cerebras 和 Tesla——完成了这项任务。与其他处理器一样,这些设备容易出现缺陷和性能下降;然而,Tesla 开发了自己的方法,可以在不让处理器核心下线的情况下识别故障处理器核心,这凸显了其取得的重大进展。
为 Cerebras 和特斯拉制造这些巨型处理器的台积电 (TSMC) 表示,未来几年 将有更多公司采用其 SoIC-SoW 技术的晶圆级设计。显然,业界正在为此做准备,并积累经验。一点一点地。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4059期内容,欢迎关注。
来源:汽车滴滴侃