摘要:AMD 周四证实,已收购 Untether AI 的员工,Untether AI 是一家 AI 推理芯片开发商,其产品据称比边缘环境和企业数据中心的竞争对手产品速度更快、更节能。
AMD 周四证实,已收购 Untether AI 的员工,Untether AI 是一家 AI 推理芯片开发商,其产品据称比边缘环境和企业数据中心的竞争对手产品速度更快、更节能。
AMD 发言人在一份声明中告诉 CRN:“AMD 已达成战略协议,将从 Untether AI 收购一支优秀的 AI 硬件和软件工程师团队。”
该代表补充道:“此次交易将为 AMD 带来一支世界一流的工程师团队,致力于提升公司的 AI 编译器和内核开发能力,并增强我们的数字和 SoC 设计、设计验证和产品集成能力。我们非常高兴地欢迎该团队以其独特的专业知识加入 AMD。”
AMD 发言人拒绝透露该交易的财务细节。
Untether AI 高管鲍勃·比奇勒 (Bob Beachler) 发表声明称,作为交易的一部分,该初创公司“将不再提供或支持我们的 speedAI 产品和 imAIgine 软件开发套件”
Untether AI 的产品和策略
当我们上次关注 Untether AI 是在 2021 年时,这家 AI 推理硬件初创公司刚刚获得 1.25 亿美元的融资,而这距离该公司正式推出其第一代 runAI200 设备及其独特的内存推理方法已经过去了一年。
第五轮融资远超这家成立四年的公司此前筹集的2700万美元,使Untether AI的总融资额达到1.52亿美元。在本周举行的Hot Chips 34线上会议上,业界得以一窥这家初创公司如何运用这笔新获得的资金。
Untether AI 推出了用于 AI 推理工作负载的第二代内存架构 speedAI240 设备,其内部代号为“Boqueria”。该架构旨在提高能源效率和密度,并配备空间架构,使设计人员能够将其扩展到更小或更大的设备,并以某种方式互连,以处理最大的自然语言处理模型。
该公司最初的 runAI200 推理加速器采用台积电 16 纳米工艺制造,提供 500 INT8 TOPs 性能、每瓦 8 TOPs 的能效和 200 MB 的 SRAM。新款“Boqueria”芯片采用台积电 7 纳米工艺制造,具有 2 petaflops 的 FP8 性能(相当于每瓦 30 teraflops)和 238 MB 的 SRAM 内存。
Untether AI 产品和硬件架构副总裁、曾在赛灵思和 Altera 等公司任职的资深人士 Robert Beachler 在 Hot Chips 大会的演讲中表示:“借助 Boqueria,我们正在解决 AI 推理面临的三大关键挑战。首先,它的内存计算结构提供了无与伦比的能效,从而能够提升神经网络的吞吐量和加速能力。它是一种可扩展的空间架构,使我们能够制造更小和更大的设备,并将它们互连在一起,从而扩展到最大的自然语言处理模型。此外,由于我们选择了合适的计算粒度,我们能够支持当今的神经网络架构,并为未来的神经网络做好准备。”
它还支持多种数据类型,使组织能够在准确性和吞吐量之间进行权衡,以满足其应用程序的特定需求,Beachler 说。
Untether AI 拥有一支拥有深厚加速器经验的团队,成立于 2018 年,并进入了人工智能推理领域,该领域不仅挤满了谷歌、Nvidia 和微软等老牌公司,还有 Cerebras、SambaNova、Graphcore 和 Celestial AI 等一大批初创公司,所有这些公司都希望在人工智能和机器学习市场获得发展。
正如我们在 2020 年该公司重出江湖时深入探讨的那样,该公司的一个关键差异化优势在于其内存计算架构。正如 Beachler 在 Hot Chips 上所解释的那样,神经网络计算中 90% 的能耗来自于从外部存储器或内部缓存中移动数据。传统的冯·诺依曼近内存架构效率低下,总线又长又窄,缓存也很大。另一方面,内存架构能耗低,但这种设计也会降低性能。
“我们是内存计算领域的先驱,将计算元件直接连接到存储单元。这是人工智能加速的最佳点。”他说道,并补充道,“内存计算采用标准的数字逻辑工艺和标准的SRAM单元,但由于数据从存储单元到实际计算元件的传输距离非常短,因此能效极高……我们在Untether所做的,实际上是尽可能提高数据传输的效率,并将计算放在数据所在的地方。我们还构建了架构,使其在必要的粒度级别上拥有适量的计算能力,并专门针对神经网络加速进行了定制。”
对于 speedAI240 设备,Untether AI 还实现了两种不同的 AP 格式——一种是 4 位尾数版本,称为 FP8p(精度),另一种是 FP8r(范围)。该公司表示,这为跨不同网络(例如 ResNet-50 等卷积网络和 BERT-Base 等转换网络)的推理提供了最佳的准确度和吞吐量。通过这些 FP8 实现,与BF16 数据类型相比,该公司发现准确度损失不到 1% 的十分之一,吞吐量和能效提高了四倍。
内存架构的基础是内存库。Boqueria 的第二代内存库可容纳两个 1.35 GHz 7 纳米 RISC-V 处理器,使 speedAI240 设备拥有 1,435 个核心。每个 RISC-V 处理器管理四个行控制器,每个控制器独立运行。Boqueria 还支持外部内存,通过两个 x64 端口和 PCI-Express Gen5 接口,可支持 32 GB LPDDR5 内存,用于主机和芯片间的连接。
Bleacher 表示,Untether AI 通过添加各种指令对 RISC-V 芯片进行了改造,以使其适应 AI 推理的需求。
Untether AI 联合创始人兼首席技术官 Martin Snelgrove 概述了 speedAI 架构的层次结构,从低功耗 SRAM 阵列和处理单元,到高效的数据传输设计,其中包括一种名为“肩袖”的通信设计,用于引导存储体内部和存储体之间的通信。此外,还有一个高带宽片上网络 (NOC) 围绕芯片外围运行。
“这不是现成的NOC,”Snelgrove说。“它的设计是为了提高能源效率。数据会以尽可能短的距离发送,这意味着会消耗尽可能少的能量,并且管理员可以选择设置任何利用方式。”
Beachler 表示 speedAI 的空间架构推动了它的扩展能力。
他说:“我们可以减少芯片上内存条的数量,以适应不同的外形尺寸和功耗要求。在我们的整个 Boqueria 系列中,我们将从一些 1 瓦的设备一直扩展到基础设施级设备的 B4。这使我们能够满足多种不同的性价比和外形尺寸需求。我们将推出一系列从单瓦 .m² 到 PCI-Express 的卡。我们拥有非常灵活的 I/O 环,这使得它能够支持 chiplet,因此对于那些希望将 die-to-die 与 SoC 直接集成的用户来说,我们也具备这种能力。”
他表示,Untether AI 能够将六台 Boqueria 设备安装到一张 PCI-Express 卡上,从而驱动大量 SRAM 功能,以扩展到最大的语言模型。他还补充道:“凭借我们的芯片间和卡间互连技术,我们现在可以实现非常强大的服务器。此外,我们还配备了外部 LPDDR 5,为芯片提供了巨大的存储空间。总而言之,这种可扩展性使我们能够在标准 PCI-Express 尺寸下提供最佳性能和能效。”
Untether AI 还提供了 ImAIgine SDK,该 SDK 能够从 TensorFlow 和 PyTorch 等常见机器学习框架中提取神经网络,并“将其精简为在这些 RISC-V 处理器上运行的内核代码”,Beachler 表示。“我们提供预先创建的神经网络模型,但大多数客户都拥有自己已经训练好的神经网络。我们提供自动量化功能,将其精简为所需的数据类型。”
供应商还负责编译和映射到内核代码、将内核放置到芯片上的物理分配以及自动互连。此外,还有一套分析工具,一旦供应商获得编程文件,就可以将其放入芯片中,并通过具有基于 C 或 Python 的 API 的运行时对其进行控制,以便集成到企业更大的机器学习框架中。
AMD还收购了一家软件公司
与此同期,AMD收购还收购了软件公司Brium,强化开放AI软件生态系统。
AMD在官方博客中表示,公司致力于构建高性能、开放的 AI 软件生态系统,赋能开发者,推动创新。今天,我们非常高兴地宣布收购 Brium,这支团队汇聚了世界一流的编译器和 AI 软件专家,在机器学习、AI 推理和性能优化方面拥有深厚的专业知识,迈出了新的一步。
Brium 带来了先进的软件功能,增强了我们在整个堆栈中提供高度优化的 AI 解决方案的能力。他们在编译器技术、模型执行框架和端到端 AI 推理优化方面的工作将在提升我们 AI 平台的效率和灵活性方面发挥关键作用。
此次收购巩固了我们长期创新的基础。它体现了我们对人工智能的战略承诺,尤其是对构建智能应用未来的开发者的承诺。这也是继收购 Silo AI、Nod.ai 和 Mipsology 之后,我们一系列定向投资的最新举措,这些投资共同提升了我们支持开源软件生态系统的能力,并在 AMD 硬件上提供优化的性能。
Brium 的独特之处在于其能够在模型到达硬件之前优化整个推理堆栈。这减少了对特定硬件配置的依赖,并在广泛的部署中实现了更快、更高效的开箱即用 AI 性能。
凭借在编译器开发和分布式机器学习基础架构方面的丰富经验,该团队将立即为 OpenAI Triton、WAVE DSL 和 SHARK/IREE 等关键项目做出贡献。这项工作对于在 AMD Instinct™ GPU 上更快、更高效地执行 AI 模型至关重要。通过专注于 MX FP4 和 FP6 等新的精度格式,我们正在使我们的 AI 平台能够更有效地处理训练和推理中出现的工作负载,帮助开发人员在保持效率和成本效益的同时实现更高的性能。
人工智能正以惊人的速度发展,开发者需要一个不仅强大,而且灵活开放的生态系统。收购 Brium 将通过引入深厚的专业知识来加速支持我们 AI 软件堆栈的开源工具的发展,从而强化这一愿景。
Brium 在库、编译器、构建系统、分布式系统和机器学习技术方面拥有丰富的经验,并具备独特的跨领域能力,能够在整个产品线中创造强大的协同效应。这种深度的拓展使我们能够为开发者和客户提供更全面、更集成的解决方案。
随着人工智能在医疗保健、生命科学、金融和制造等行业日益重要,AMD 致力于满足这些垂直领域客户的特殊需求。此次收购 Brium 带来的专业知识正是推进这一使命所需的。他们成功将深度图库 (DGL) 移植到 AMD Instinct 平台,清晰地展现了他们如何在健康科学领域实现尖端人工智能应用。这种领域专业知识增强了我们为高价值行业提供优化解决方案的能力,拓宽了我们的市场覆盖范围,并巩固了我们在各行各业作为值得信赖的合作伙伴的地位。
此次收购是 AMD 使命的又一重要进展,即为开发者提供开放、可扩展的 AI 软件平台,充分释放我们硬件的潜力。展望未来,我们将继续投资于人才、工具和技术,以增强我们支持 AI 开发者社区的能力,并助力各行各业实现突破。这不仅仅是软件方面的努力,更是致力于为客户提供真正的价值,推动 AMD 平台的普及,并助力定义 AI 计算的新时代。
我们热烈欢迎 Brium 加入 AMD,并期待与 Brium 携手加速创新。我们秉持着对开放性和开发者至上理念的共同承诺,正在推动各行各业的 AI 发展,不断突破无限可能。
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4057期内容,欢迎关注。
『半导体第一垂直媒体』
来源:半导体行业观察一点号