摘要:2024年,AI推理市场迎来历史性拐点。Groq公司公布的LPU(Language Processing Unit)实测数据引发行业震动:在Llama 2-70B推理任务中,其LPU系统实现每秒近300 token的吞吐量,相较英伟达H100实现10倍性能提升
1、Grop发布LPU性能大超H100
2024年,AI推理市场迎来历史性拐点。Groq公司公布的LPU(Language Processing Unit)实测数据引发行业震动:在Llama 2-70B推理任务中,其LPU系统实现每秒近300 token的吞吐量,相较英伟达H100实现10倍性能提升,单位推理成本降低达80%。这标志着专用推理芯片首次在核心指标上实现对GPU的跨代超越,AI算力战争进入下半场。
推理市场的三个根本性转变,正在瓦解英伟达的护城河:
成本敏感度倒置:据Deci.ai测算,当企业AI推理规模超过5亿次/月时,算力成本将超越模型研发成本,而Groq的每token成本已降至0.0003美元
软件定义硬件的终结:PyTorch 2.0动态图特性导致GPU利用率普遍低于40%,而LPU的静态编译架构可将利用率稳定在92%以上
开源模型浪潮:Hugging Face开源模型下载量年增300%,LPU对开源生态的深度适配正在构建新的软件壁垒
2、Deepseek携手LPU,10倍碾压英伟达
Deepseek 与国产 LPU 结合,其语言大模型算力竟然达到了英伟达 GPU 算力的 10 倍。2025 年 1 月 20 日,DeepSeek 正式发布 DeepSeek-R1 模型,在数学、代码、自然语言推理等任务上,性能成功比肩 OpenAI o1 正式版,在 1 月 24 日国外大模型排名 Arena 上,DeepSeek-R1 基准测试升至全类别大模型第三,在风格控制类模型分类中与 OpenAI o1 并列第一,展现出强大的技术实力。仅仅一周后,DeepSeek 在中国区及美区苹果 App Store 免费榜均占据首位,成为首个同期在中国和美区苹果 App Store 占据第一位的中国应用,用户量在短时间内迅速攀升,在全球范围内掀起了使用热潮。
LPU,即语言处理单元(Language Processing Unit),是专为 AI 推理所设计的芯片,其工作原理与传统 GPU 截然不同,采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这一独特架构使其无需像使用高带宽存储器(HBM)的 GPU 那样频繁地从内存中加载数据,从而有效避免了 HBM 短缺可能带来的问题,降低了成本。在能效方面,LPU 通过减少多线程管理的开销和避免核心资源的未充分利用,实现了更高的每瓦特计算性能,在执行推理任务时,从外部内存读取的数据更少,消耗的电量也低于英伟达的 GPU 。
以 Groq 公司的 LPU 芯片为例,在一次公开的基准测试中,Meta AI 的 Llama 2 70B 在 Groq LPU 推理引擎上运行,输出令牌吞吐量快了 18 倍,远远优于其他基于云的推理提供商。在ArtifialAnalysis.ai的 LLM 基准测试中,Groq 的方案在延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异等 8 个关键性能指标上击败对手,其中 Llama 2 70B 在 Groq LPU 推理引擎上达到了每秒 241 个 token 的吞吐量,是其他大厂的 2 倍还要多,总响应时间也最少,接收 100 个 token 后输出仅需 0.8 秒,这些数据充分展示了 LPU 在 AI 推理任务中的强大性能。
LPU与TPU同属于ASIC,下面通过对比看一下被许多人看好的LPU到底是什么:
LPU与TPU虽然都是为特定AI任务设计的专用芯片,但二者在架构目标、技术路径和应用场景上存在本质差异。
核心目标:
TPU
核心目标是加速神经网络训练与推理,尤其是张量运算(矩阵乘法、卷积等)。其设计延续"训练优先"思维,通过优化大规模并行计算支持模型迭代。
LPU:
专为大语言模型推理设计,聚焦降低token生成延迟与提升吞吐量。其架构彻底抛弃训练需求,通过确定性硬件调度实现实时交互性能。
TPU的工程妥协:
保留通用性接口以兼容TensorFlow/PyTorch,采用HBM缓解内存瓶颈,但计算利用率仅达65%(MLPerf数据)。其架构本质是训练推理混合型加速器。
LPU的极端优化:
硬件直接硬编码Transformer计算图,通过单芯片230MB SRAM消除外部内存访问。在Groq演示中,其Llama2-70B推理时芯片利用率达98%,实现软件定义硬件的终极形态。
TPU主战场:
Google Cloud上的大规模模型训练(如PaLM)、推荐系统推理(YouTube点击率预测)、计算机视觉批处理任务。
LPU突破点:
实时对话系统(每秒300 token)、代码生成(延迟
TPU的护城河:
绑定谷歌云生态,GCP客户使用TPU可获自动优化,形成从Colab到Vertex AI的工具链闭环。
LPU的颠覆性:
通过开源编译器支持Hugging Face模型直接部署,其Python API设计比TPU的XLA编译器更易用,正在吸引Mistral、Cohere等中立厂商。
TPU代表"通用专用芯片"路线,试图在专用与灵活性间寻找平衡;LPU则践行"算法即硬件"理念,通过架构与LLM计算图的完全耦合实现数量级提升。这种分化类似CPU与GPU的历史分野——当某个计算范式(如Transformer)足够稳定时,专用架构的胜利就成为必然。当前LPU在语言推理赛道的爆发,可能推动AI芯片进入"场景碎片化"的新阶段。
定义与设计目标:LPU是一种新型的专用集成电路,专为处理语言相关的计算密集型任务而设计,例如大型语言模型(LLM)的推理。
性能优势:LPU通过独特的架构设计,使用SRAM代替HBM,减少了数据加载时间,提高了推理速度和能效比。
可以看到LPU最关键的就是:采用230MB SRAM替代HBM,内存带宽飙升至80TB/s(H100为3.35TB/s),彻底打破"内存墙"对大模型吞吐量的制约。
国内相关SRAM芯片概念股:
北京君正:全球 SRAM 行业龙头之一,其经营实体主要为 ISSI,主营业务为集成电路存储芯片、模拟芯片及其衍生产品的研发和销售,在 SRAM 存储芯片领域技术实力雄厚,市场份额较高。
恒烁股份:专注于 SRAM 存储芯片领域,推出了 SRAM 数字存算一体方案,在技术创新方面具有一定优势,是 SRAM 存储芯片的重要企业。正在研发存算一体的AI推理芯片。
炬芯科技:基于 SRAM 的存算一体技术应用于AI音频芯片领域,三核异构设计:基于 MMSCIM 的端侧 AI 音频芯片采用 CPU(ARM)+DSP(HiFi5)+NPU(MMSCIM)三核异构的设计架构,形成 “Actions Intelligence NPU(AI - NPU)” 架构,通过协同计算提供高弹性和高能效比。
西测测试: 业务范围:西测测试提供SRAM读写擦除功能自动测试服务。公司在SRAM芯片测试领域具有一定的市场份额。
兆易创新:作为中国存储芯片龙头企业,兆易创新的SRAM芯片业务起家较早。公司拥有丰富的产品线,涵盖多种容量和接口类型的SRAM芯片,能够满足不同客户的需求。
光力科技: 公司通过将SRAM芯片与其他半导体技术集成,开发出高性能的半导体产品,应用于智能安防等领域
来源:全产业链研究