传统NPU供应商,碰壁了!

B站影视 日本电影 2025-06-12 09:33 1

摘要:在Quadric看来,虽然NPU目前发展迅猛,也有不少传统和新兴厂商在这个赛道努力。他们认为,将矩阵计算与通用计算紧密集成,而不是将两个不同的引擎焊接到一条总线上,然后再对算法进行划分,这似乎是一个显而易见的优势。为什么一些规模更大、更成熟的 IP 供应商不做

在Quadric看来,虽然NPU目前发展迅猛,也有不少传统和新兴厂商在这个赛道努力。他们认为,将矩阵计算与通用计算紧密集成,而不是将两个不同的引擎焊接到一条总线上,然后再对算法进行划分,这似乎是一个显而易见的优势。为什么一些规模更大、更成熟的 IP 供应商不做类似的事情呢?

Quadric的答案总是:“他们不能,因为他们被自己的成功遗产所困住了!”

在“AI 加速器”或“NPU IP”授权市场中,众多竞争对手从各种各样的切入点开始提供 NPU 解决方案。五六年前,CPU IP 提供商纷纷加入 NPU 加速器领域,试图保持其 CPU 的竞争力,他们打出的口号是“使用我们值得信赖的 CPU,将那些繁琐的、计算量巨大的矩阵运算交给加速器引擎”。DSP IP 提供商也采取了同样的行动。可配置处理器 IP 供应商也是如此。甚至 GPU IP 授权公司也在做同样的事情。这些公司的策略非常相似:(1) 稍微调整传统的指令集,以略微提高 AI 性能;(2) 提供矩阵加速器来处理当时 ML 基准测试中最常见的一二十个图运算符:Resnet、Mobilenet、VGG。

其结果是,所有 10 或 12 家领先的 IP 公司产品中的分区 AI“子系统”看起来非常相似:传统核心加上硬连线加速器。

这些架构的致命缺陷是:总是需要对算法进行分区才能在两个引擎上运行。只要算法的“分割”数量非常少,这些架构就能在几年内运行良好。例如,对于 Resnet 基准测试,通常只需要在推理的最后进行一次分区。Resnet 可以在这种传统架构上非常高效地运行。但是,随着 Transformer 的出现,它需要一组截然不同且更广泛的图运算符,突然间,“加速器”无法加速太多(如果有的话)新模型,整体性能变得无法使用。NPU 加速器产品需要改变。使用硅片的客户不得不承担硅片重新流片的成本——非常高昂的成本。

如今,这些知识产权授权公司发现自己陷入了困境。五年前,他们决定走一条“捷径”,寻求短期解决方案,却最终落入了陷阱。所有传统知识产权公司之所以选择这条路,其动机既源于技术需求,也源于人性和企业政治。

不到十年前,当当时普遍被称为“机器学习”的工作负载首次在视觉处理任务中崭露头角时,传统处理器供应商面临着客户的需求,他们要求提供灵活的解决方案(处理器),以运行这些快速变化的新算法。由于处理器(CPU、DSP、GPU)无法胜任这些新任务,最快的短期技术解决方案是外部矩阵加速器。而构建一个长期技术解决方案——一个专门构建的可编程NPU,能够处理流行训练框架中所有2000多个图形运算符——则需要更长的时间才能交付,并带来更大的投资和技术风险。

但我们不应忽视这些传统处理器IP公司所面临的人性因素。一家选择构建全新架构(包括新工具链/编译器)的传统处理器公司,必须在内部和外部明确声明,该传统产品与现代人工智能世界的关系,远不如之前的传统IP核(CPU、DSP、GPU)的价值。目前承担所有家庭开支的养家糊口者,需要支付新架构编译器工程师团队的工资,而新架构实际上与传统的明星IP竞争。(这是“ 创新者窘境” 问题的变体。)客户也必须适应新的、混杂的信息,这些信息宣称“之前普遍出色的IP核实际上只适用于部分应用——但你却得不到专利费折扣。”

所有传统公司都选择了同一条路:将矩阵加速器固定在摇钱树处理器上,并宣称传统核心仍然占据主导地位。三年后,面对Transformer的现实,他们宣布第一代加速器已过时,并发明了第二代,但第二代加速器重复了第一代加速器的缺点。如今,面对算 子的持续演进(自注意力、多头自注意力、屏蔽自注意力以及每天都有新的算子出现),第二代硬连线加速器也面临困境,它们要么再次加倍努力,说服内部和外部利益相关者,这第三次固定功能加速器将永远解决所有问题;要么承认他们需要打破自己构建的壁垒,构建一个真正可编程的专用AI处理器。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4063期内容,欢迎关注。

来源:半导体行业观察一点号

相关推荐