摘要:尽管NVIDIA的市值目前稳居美国股市前三,但其市场地位已经不如之前那么稳固。一个标志性的事件,是Google使用TPU芯片(张量处理单元),训练出了Gemini 2.5 Pro这个SOTA通用模型,打破了SOTA模型主要由NVIDIA GPU训练的垄断。
文 | 阿尔法公社
尽管NVIDIA的市值目前稳居美国股市前三,但其市场地位已经不如之前那么稳固。一个标志性的事件,是Google使用TPU芯片(张量处理单元),训练出了Gemini 2.5 Pro这个SOTA通用模型,打破了SOTA模型主要由NVIDIA GPU训练的垄断。
在市场更大的推理计算市场,NVIDIA的领先相对就更小;它不光面对AMD,Google,华为等大厂的竞争,还有一票创业公司,用各种各样或性能更优,或能耗更低的推理芯片和它竞争,包括但不限于D-Matrix、Etched、Recogni、Lightmatter等。在这批创业公司中,发展得较好得是Groq。
这家公司2024年12月在沙特构建了由19000个Groq LPU(它旗下的AI芯片)组成的AI推理数据中心,仅花了8天时间就上线。而且在LEAP 2025大会上,Groq创始人兼首席执行官Jonathan Ross宣布获得沙特15亿美元的投资承诺,用于扩大其基于LPU的AI推理基础设施在该国的交付规模。
在2024年早些时候,Groq完成由贝莱德(BlackRock)领投的6.4亿美元融资,Neuberger Berman、Type One Ventures、思科、KDDI和三星催化基金也参与了此次融资。这一融资使得Groq的总融资金额超过10亿美元,公司估值达到28亿美元。
此外,在那次融资后Meta的首席AI科学家Yann LeCun加入Groq,担任技术顾问;而英特尔前晶圆厂业务负责人、惠普前CIO Stuart Pann加入Groq担任首席运营官(COO)。
造AI芯片,卖AI推理数据中心和云服务前文提到基于TPU芯片训练的Gemini 2.5 Pro成为了SOTA模型,Groq的创始人兼CEO Jonathan Ross就参与了TPU的发明 ,公司的另一位创始人是Alphabet的X实验室工程师Douglas Wightman。
在创立Groq时,他们将TPU团队的10位成员中吸纳了8位。
Jonathan Ross
Ross拥有多项专利,均与神经网络处理器和计算有关,而Wightman在加入谷歌之前曾创办过四家公司。此外,Groq硬件工程副总裁Jim Miller曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了Pentium II芯片的构建。
根据IDC的报告,AI芯片的市场规模预计到2030年将达到1100亿美元左右,目前大约有40%的AI芯片用于推理,而一旦AI应用成熟并且大规模铺开,AI推理的需求将提升至总计算需求的60-80%。
根据Mary Meeker团队的最新报告,AI的推理成本已经下降99%,AI推理的经济性持续提升,每美元在推理上的投入每年带来的价值提升十倍。这些数据都显示了AI推理的快速增长和巨大潜力。
专注于AI推理计算的LPU芯片
Groq的AI推理芯片产品是LPU(Language Processing Unit,语言处理单元),它是完全根据AI推理计算的需求而设计的。AI推理计算的本质,是对大规模数据执行海量的线性代数运算,主要是矩阵乘法。
GPU是为图形处理等独立的并行操作而构建的,它在提升推理速度和效率方面的潜力受限。
与GPU的“轴辐式”架构(左图)相比,Groq LPU的可编程流水线架构(右图)在速度和效率上都领先。
Groq的LPU专注于线性代数计算并简化多芯片计算模式,采用可编程流水线架构,这使得其 AI 推理技术能够使用一个通用的、与模型解耦的编译器。
Groq编译器能在需要时精确调度每次内存加载、操作和数据包传输,确保最高性能和最快系统响应。这使得它不必等待尚未填充的缓存、因冲突而重新发送数据包,或因内存加载而暂停。
LPU将内存和计算单元都集成在同一芯片上,极大地提升了数据存取速度,同时消除了时序变化。LPU使用SRAM作为内存, GPU的片外HBM内存带宽约为8TB/s,Groq的片上SRAM内存带宽高达80TB/s,仅这一差异就为LPU带来了高达10倍的速度优势
LPU的可编程流水线架构,负责在芯片的SIMD(单指令多数据)功能单元之间移动指令和数据。它不仅支持芯片内部的流水线处理,也支持芯片之间的流水线。充裕的芯片间带宽使得数据传送带可以在芯片间像在芯片内一样轻松流动。即使在最大容量下,芯片间的互连也无需路由器或控制器。
在能耗上,当前一代LPU的能效比目前最节能的GPU高10倍,因为其流水线方法最大限度地减少了芯片外数据流。
目前,Groq的芯片组基于14纳米工艺制造,它们将在2025年内推出基于4纳米工艺制造的芯片,新制程将使得LPU架构在性能和功耗方面的优势更明显。
Groq的主要产品不是芯片,而是AI推理云服务和AI计算中心
Groq的LPU显然是它在技术上的核心竞争力,但它没有直接卖芯片或是卖计算主机,而是做了一些产品商业模式上的创新。
首先,它有GroqRack集群这个产品,以私有云或AI计算中心方式提供。
例如,Groq与Earth Wind&Power合作,计划在挪威开发欧洲首个垂直整合的AI计算中心,它们希望在2025年在这个计算中心中部署总共129600个LPU。前文提过,它们仅花8天时间,就在沙特构建了一个19000个Groq LPU组成的AI推理数据中心。
除了构建数据中心,它们还建立了GroqCloud云平台,主要针对开发者和企业,提供Tokens-as-a-Service的服务,开发者和企业可以通过API访问平台,并构建AI应用。
值得一提的是,自2024年的融资后,AI世界发生的一个重要转变是开源模型的崛起,如果说Meta的Llama系列、Google的Gemma系列,让开源模型能用,让人们在闭源模型之外有了选择。那么DeepSeek R1,Qwen等中国的开源模型,则是能力直逼SOTA,让企业和开发者真的能够用他们构建生产力,Groq也在它的云服务中推出DeepSeek和Qwen的服务。
至于Groq与Meta,因为本身就有合作关系,支持强度则更大,它们为Meta的官方API提供支持,让其API的推理速度最高达到625 tokens/秒,而一般超过30tokens/秒就已经算流畅了。
在强大开源模型的推动下,GroqCloud平台上的活跃开发者数量从2024年7月的35.6万名迅速增长到了2025年4月的超过150万名。大多数财富 500 强公司,也已经成为它的客户。
用复合AI系统为AI推理云提升价值
除了基础设施以外,Groq在2025年开发了新的业务,他们有了一个叫Compound的复合AI系统,这个系统旨在通过采取行动来解决问题,将网页搜索、代码执行等工具与大模型协同使用。
这使得该系统能够访问实时信息、执行实时计算并与外部数据交互。因此,相比单一的语言模型,它能提供更准确、更前沿、也更有用的回答。这个系统由多个开源模型共同驱动,它使用Llama 4 Scout进行核心推理,并由Llama 3.3 70B辅助进行请求路由和工具选择。它基本上是一个Agentic类型的系统,开发者可以在此基础上构建AI Agent、智能助手和研究工具。
在打造垂直整合的AI Infra时,创业公司的优势是速度和效率可以看到,除了技术强大外,Groq在产品和商业模式的创新和思考,也是它的竞争力的来源之一。
Groq的技术优势是它高度专注在AI推理的LPU芯片及与之相应的软硬件结合优化技术。但是它却不直接卖芯片,不与NVIDIA直接竞争,它的产品是AI数据中心和AI推理云服务,它的竞争对手应该是AWS,Azure,GCP等云服务商。
Jonathan Ross在一次播客中分享:“当前大家获取芯片有一定困难,厂商销售往往依赖“规格主义”:以芯片速度、每秒TFlops等他们更擅长的规格为卖点进行销售,但最关键的指标应该是每token的成本、每token的能耗是多少。”可能这个认知是让他们专注于卖云服务而非芯片的基础。
而它与这些云服务商相比的差异化优势来自于它的专注和垂直整合。它的专注在于它只专注于提供快速的AI推理服务,没有碰训练,没有碰其他类型的计算类型。在只有一个单一目标的前提下,它的AI推理服务可以做到极致的快,极致的高效。
而它的垂直整合来自于从硬件芯片,芯片间传输技术,编译器,乃至于云服务之上的自研的Compound复合AI系统。当这些环节都被整合在一起的时候,其他没有完整掌握这些环节的厂商,无论是在体验上,还是成本上,就很难与之竞争。
对于中国的infra创业者,好消息是目前的SOTA级别开源模型都是中国厂商推出的,坏消息是,如果走垂直整合路线,似乎大厂,例如阿里云,百度智能云,更有基础去走这条路。
但是就像现在流行的一个说法,速度是AI时代的新护城河,在速度,效率和对用户体验的迭代方面,大厂仍然无法与创业公司竞争。创业者们在某一些垂直的服务或产品上做到极致,就能活得很好。
来源:钛媒体