摘要:在Keller位于加州圣克拉拉的办公室门外,有一块白板,上面用粗体字写着“我们一定会赢!”。旁边列出了一些在黑洞一代硬件上达到“实用”性能和可靠性水平的模型,其中包括目前公司TT-NN编译器堆栈中列出的五个模型。“我们还有15个模型正在开发中,”他说。
本文由半导体产业纵横(ID:ICVIEWS)编译自eetimes
RISC-V正在发挥更大的价值。
Tenstorrent 已开始发售其用于 AI 工作负载的 Blackhole 处理器。首席执行官 Jim Keller 表示,这是四年来最好的一天。
在Keller位于加州圣克拉拉的办公室门外,有一块白板,上面用粗体字写着“我们一定会赢!”。旁边列出了一些在黑洞一代硬件上达到“实用”性能和可靠性水平的模型,其中包括目前公司TT-NN编译器堆栈中列出的五个模型。“我们还有15个模型正在开发中,”他说。
负责构建基于 Tenstorrent MLIR(多级中间表示)编译器的团队 TT-Forge 稍微落后了一点,但 Keller 表示“目前有数百名工程师正在致力于此”。
“MLIR 真的是一个重大胜利,”Keller说。“这是一个不错的选择,真的很棒。”
Keller 对为开源项目 MLIR 做出贡献感到特别兴奋。Tenstorrent 的整个软件栈都是开源的。“这个决定在公司内部和外部都得到了好评,而且它帮助我们招募人才,因为开源精神对工程师很有吸引力,”他说。
“我们在很多方面都获得了关注,因为人们能够基于我们的技术构建软件,而且他们为我们欢呼,因为它有效,而且我们可以对其进行调整。他们对真正的开源软件栈的存在感到兴奋,”Keller 说。
RISC-V投资Tenstorrent 的芯片和 IP 也基于开源指令集 RISC-V 构建。Keller 表示:“RISC-V 行业的决策速度曾让我们感到畏惧,但现在我们在某些领域已经处于领先地位。”
“我们正在投资 RISC-V 编译器技术。我们已经将 LLVM 的性能提高了 10%,并且为开源做出了贡献。操作系统、驱动程序、工具链,一切都在改进。RISC-V 真的很棒,我很高兴我们做出了正确的决策,并且能够从中受益,”Keller 说道。
“AI 代码生成将会改变代码。它将更加倾向于并行化,CPU 架构也在发生变化。其他 ISA 无法控制这一点,但 RISC-V 可以,所以我们正在积极地致力于此,”Keller 说。
NVIDIA 近期宣布,将把其用于 GPU 之间通信的互连技术“NVIDIA NVLink”的 IP 授权给部分定制 CPU 和加速器制造商。该公司以自主研发而闻名,但一些人认为此举旨在围绕部分 NVIDIA 技术构建多供应商生态系统。当被问及是否对更开放的 NVLink 版本有任何担忧时,Keller 回答说:“我一点也不担心。”
Keller说:“Tenstorrent 芯片通过经过验证的开放标准以太网连接,这已经足够了。”
他开玩笑说:“我们把NVIDIA做的事情列个清单,然后反其道而行之。以太网真的很棒。小型低成本芯片是个好主意。更简单的服务器很棒,开源软件也很棒。”
他还强调了 Tenstorrent 对更便宜的芯片封装的关注,放弃高带宽内存 (HBM) 而选择 GDDR6。
Keller说:“如果你完全照搬领先者的做法,你将获得 20% 的市场份额,但你会降低价格,而且你不会创造出新的市场。”
“至少有一家公司正在自己的AI硬件中使用Tenstorrent的开源堆栈。这家中国公司提交了一份错误报告,Tenstorrent团队顺利修复了该错误。这就是开源软件的本质,即使它可能帮助了中国的竞争对手制造商,”他说。
“Tenstorrent 将继续服务中国市场。根据目前的美国出口限制,我们上一代硬件 Wormhole 可以运往中国,但 Blackhole 必须进行精简,我们正在将这种精简融入到每一块硅片中。Ascalon CPU IP 也必须针对中国客户进行精简,”Keller 说道。
“限制人工智能技术的出口对美国没有好处,”Keller说。“限制半导体设备的出口意味着中国将加大国内人工智能技术的研发力度。”
“据我所知,过去五年中国对半导体设备的限制,反而加速了中国的发展速度大约五年,”Keller说道。“胜利是靠创新赢得的,而不是靠限制。这一点早已显而易见。”
Tenstorrent 目前在塞尔维亚、德国和波兰设有欧洲办事处,并应塞浦路斯政府的邀请在塞浦路斯开设办事处,将使用 Tenstorrent 计算机与塞浦路斯大学开展合作项目。
“各国都希望掌控自己的人工智能技术,而不是依赖美国的超级巨头,”Keller说,“他们喜欢我们的开源软件,这样他们就可以自己做事。”
Keller表示:“我们未来可能设立办事处的国家之一是西班牙,因为那里有大量与 RISC-V 相关的人才和政府支持。”
在日本,Tenstorrent 也正在与 Rapidus 合作,后者的 2nm 中试线正在启动中,并且刚刚提前发布了 PDK(工艺设计套件)。
“我们一直在对一些 CPU 进行综合测试,并向它们发送反馈,”Keller 说,“测试结果基本符合我们的预期。”
随着 Blackhole 芯片的推出,Tenstorrent 正在继续构建更大规模的训练集群。目前,他们已经构建了一个由 6 个“Backhole Galaxies ”(192 个芯片)组成的训练集群,并计划在未来六个月内实现更大的集群。他们的最终目标是打造一个包含 16 台 Galaxy 服务器的数据平面引擎。其中 16 台 Galaxy 服务器用于交换(Tenstorrent 使用自有芯片作为交换机),另外 16 台 Galaxy 服务器用作优化器,并保留一定的冗余度。
“在演示中,我们将运行一个集群,并展示即使拔掉任何线缆,它也不会停止运行,”Keller说。“原则上,你可以关闭任何服务器的电源,它都会继续运行。”
他进一步指出,“四台 Galaxies(128 块芯片)即可实现快速推理。推理所需的令牌数量将是现有大规模语言 (LLM) 工作负载的百万倍以上(推理计算量的实际上限取决于人类能够提出的独特问题的数量)。”
“我的使命是大幅降低训练成本,”Keller强调。“我们如何提供合适的平台来做新的事情?这是一个巨大的挑战,因为如果你不能训练,你就无法做新的事情。”
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!
来源:半导体产业纵横