成本暴降100倍!AI推理硬件两大新贵SambaNova与Cerebras,让大模型告别“烧钱”

B站影视 电影资讯 2025-09-18 18:42 1

摘要:两个名不见经传的“刺客”——SambaNova Systems和Cerebras Systems,从AI推理这个腹地,向着固若金汤的GPU帝国英伟达发起了冲锋。

两个名不见经传的“刺客”——SambaNova Systems和Cerebras Systems,从AI推理这个腹地,向着固若金汤的GPU帝国英伟达发起了冲锋。

当AI的发展重心从模型的“诞生”(训练)悄然转向模型的“应用”(推理)时,GPU这位曾经的王者,开始显露出疲态。推理场景,就像一场场实时的“快问快答”,对延迟、成本和效率的要求极为苛刻。而GPU这位为“马拉松式”训练而生的重量级拳手,在面对这种“短跑冲刺”时,几个致命的短板开始暴露无遗。

首当其冲的,就是“内存带宽瓶颈”。今天的大语言模型,参数动辄千亿,甚至万亿,整个模型就像一部超级厚的《新华字典》。在推理时,用户每提一个问题,计算核心就要频繁地去翻阅这本“字典”查找信息。GPU虽然配备了昂贵的HBM(高带宽内存),可是字典本身太大了,即便是在英伟达H100芯片上,带宽也只有区区4.8TB/s。华尔街见闻在2024年的报道中就曾指出,这点带宽对于需要实时响应的大模型来说,无异于杯水车薪。

其次,是“稀疏计算”的低效。在深度学习的计算过程中,大量的矩阵运算里,有50%到98%的元素都是零。这些零就像是数学题里的“乘以0”,无论乘以什么结果都是零,是纯粹的无效计算。但GPU这位“耿直的壮汉”,它的设计理念是“密集执行”,不管是不是零,它都会老老实实地算一遍。这就好比让你去数一袋子混杂着沙子和金子的混合物,GPU的方法是把每一粒沙子都拿起来看一遍,确认是沙子后再扔掉,造成了巨大的算力浪费。Cerebras在2024年发布的白皮书中,毫不留情地指出了GPU在这一点上的“愚笨”。

再者,是赤裸裸的“能效与成本”问题。GPU集群是出了名的“电老虎”,动辄数十千瓦的功耗,让数据中心的电表转得飞快。部署和维护一个GPU集群的复杂性,也让企业的运维团队叫苦不迭。最终,这一切都转化为了高昂的总拥有成本(TCO)。一个残酷的例子是,根据华尔街见闻2024年的数据,在云端使用H100运行Llama3-70B模型,每处理一百万个token的成本高达2.90美元。而新兴的挑战者,已经能把这个数字压缩到令人发指的60美分。这种成本差异,对于希望大规模部署AI应用的企业来说,是致命的。

最后,还有“部署灵活性不足”的痛点。GPU的架构是固定的,像一块烙印好的电路板,难以针对千变万化的AI模型进行动态优化。企业常常需要在训练和推理两种不同的硬件配置之间切换,这不仅增加了系统的复杂度,也拉长了部署周期。

正是这四大瓶颈,为新一代的AI硬件竞争者们,撬开了一道通往“铁王座”的裂缝。在这道裂缝中,SambaNova和Cerebras的身影,显得尤为清晰。

SambaNova的“变形金刚”:用软件定义硬件,玩转企业AI

在众多挑战者中,SambaNova Systems的玩法最为独特。这家成立于2017年的公司,创始团队堪称豪华,汇聚了来自Sun/Oracle和斯坦福大学的硬件与软件泰斗。手握软银、英特尔资本、贝莱德等顶级投资机构超过10亿美元的融资,SambaNova从一开始就没打算走寻常路。他们的核心理念,用一句话概括就是:不要让软件去适应硬件,而是让硬件为软件而“变形”。这个理念,被他们做成了一套名为“可重构数据流架构(Reconfigurable Dataflow Architecture, RDA)”的技术体系。

传统芯片架构,无论是CPU还是GPU,都遵循着固定的指令集架构。这就像一本预设好的“操作手册”,硬件只能按照手册上的指令一步步执行。而SambaNova的RDA架构,则彻底撕掉了这本手册。它的核心思想是“软件定义硬件”,根据不同的AI模型,动态地重新组织芯片内部的计算、内存和通信资源。这就像拥有了一个可以随意拼接的乐高芯片,面对不同的任务,它可以把自己重组成最优的形态。

实现这一魔法的核心,是SambaNova的可重构数据流单元(Reconfigurable Dataflow Unit, RDU)。这颗芯片内部并非传统的固定核心,而是一种“瓦片式架构”,由无数个可重构的功能单元网络组成。当一个AI模型被加载时,SambaNova的SambaFlow软件栈会自动分析这个模型的计算流程,将其转换成一张“数据流图”。然后,这张图会被直接“映射”到RDU芯片上,硬件会根据图的结构,动态地连接计算单元和内存单元,形成一条为这个特定模型定制的“数据高速公路”。数据在这条路上流动,计算自然而然地就完成了。这种“原生数据流处理”的方式,彻底绕开了传统架构中繁琐的指令解码和调度开销,效率极高。更重要的是,它在硬件层面就原生支持稀疏计算优化,能自动跳过那些值为零的无效乘法,把算力用在刀刃上。

SambaNova的野心不止于一颗芯片。他们提供的是一套名为SambaNova DataScale的机架级系统,这是一个即插即用的计算平台,符合数据中心标准,让企业可以像部署普通服务器一样轻松上手。

SambaNova打出了一套“灵活性”与“总拥有成本优化”的组合拳。它的“单系统多模型”能力是一大杀手锏。一个SambaNova系统可以同时运行海量的小模型,或者一个像DeepSeek-R1 671B这样的超级巨兽。这种灵活性避免了Cerebras那种“一机一模型”可能导致的硬件资源浪费,对于需要同时处理多种AI任务的企业来说极具吸引力。此外,其低功耗设计也令人印象深刻,一个包含16颗SN40L芯片的系统,平均功耗仅为10千瓦,远低于Cerebras CS-3系统的23千瓦,这意味着更低的电费和更友好的数据中心集成。

SambaNova的商业策略同样精准。他们将自己定位为“全栈生成式AI平台”,推出了SambaNova套件,这是业界首款从芯片、软件到模型的一体化解决方案。这种“交钥匙”的服务,极大地降低了企业部署AI的门槛。

一个教科书般的案例是他们与全球顶尖半导体制造商亚德诺半导体(ADI)的合作。2024年,ADI宣布部署SambaNova套件,以推动其全球业务的AI转型。具体应用场景非常务实:加速现场销售和客户支持。想象一下,ADI的一线销售人员在面对客户时,能够通过一个内部AI助手,即时获取复杂产品手册的关键信息,获得销售策略建议,从而深化客户关系。这背后,就是SambaNova平台在ADI的数据中心内,安全地对模型进行微调和推理。ADI官方新闻稿强调,这种全栈整合方案让他们能够将数据和模型牢牢掌握在自己手中,永久保留所有权,彻底规避了使用公有云服务可能带来的数据隐私风险。

除了商业领域,SambaNova也在科研界开花结果。部分美国国家实验室已经采用SambaNova系统,用于气候模型优化和海量科学数据分析。根据一些公开的资料,研究人员正利用SambaNova Suite处理庞大的气候数据集,以期提升气候预测模型的精度。

Cerebras的“巨芯”神话:用一整块晶圆,碾压物理极限

如果说SambaNova是AI硬件界的“技术流”宗师,那么Cerebras Systems就是不折不扣的“力量派”狂人。这家成立于2016年的公司,自诞生之日起就自带一种“暴力美学”的光环。他们的核心理念简单粗暴到令人咋舌:既然芯片之间的互联是性能瓶颈,那为什么不把所有东西都做到一块芯片上呢?于是,他们真的造出了一个前无古人的“怪物”——晶圆级引擎(Wafer-Scale Engine, WSE),一个直接用一整块直径12英寸的硅晶圆雕刻而成的超级处理器。

要理解这有多么颠覆,我们需要了解传统芯片的制造过程。通常,一块晶圆会被切割成数百个独立的、小小的芯片(Die),然后经过封装,再通过电路板(PCB)连接起来协同工作。这个“切割-封装-互联”的过程,不仅耗时耗力,更致命的是,芯片之间的通信速度远远慢于芯片内部。数据在芯片间“奔波”所消耗的时间和能量,构成了现代计算系统最大的性能瓶颈之一。Cerebras的做法,就是把这个过程彻底省略。他们直接在整块晶圆上蚀刻电路,把传统需要一个服务器机柜才能容纳的计算、内存和通信资源,全部集成在了一个巴掌大小的平面上。

Cerebras的技术核心,就是这颗不断进化的WSE芯片以及围绕它打造的CS系统。最新的第三代WSE-3芯片,其参数只能用“碾压”来形容。

数据来源:Cerebras白皮书(2024)、华尔街见闻(2024)

芯片面积是H100的56倍,晶体管数量是50倍,AI优化核心数量更是达到了惊人的90万个,是H100的123倍。但最恐怖的,是内存带宽和互联带宽。WSE-3拥有高达21 PB/s(拍字节每秒)的内存带宽,这是H100的6268倍!如果把H100的内存带宽比作一条双向八车道的高速公路,那WSE-3的带宽就相当于拥有数万条车道的超级交通枢纽,数据在计算核心和内存之间几乎是零延迟、零距离传输。这从物理上根治了GPU的内存带宽瓶颈。其内部核心间的互联带宽更是达到了220 Pb/s(皮比特每秒),比H100高出超过36万倍。

为了发挥这颗巨芯的威力,Cerebras还专门设计了稀疏线性代数计算(SLAC)核心,在硬件层面就能高效处理稀疏数据,自动跳过所有无效的零值乘法。同时,其独特的Swarm通信架构,像一张二维渔网,将所有核心连接起来,可以为每一个神经网络模型动态定制最优的通信路径,避免了GPU硬编码通信模式的僵化。

这一切都被集成在名为CS-3的系统中,一个15RU高(约67厘米)的机箱,可以直接部署在标准的数据中心机架里,虽然其高达23千瓦的峰值功耗需要专业的液冷系统来伺候。

光看参数可能还不够直观,让我们看看真刀真枪的实测性能。根据第三方评测机构Artificial Analysis的验证数据,在运行流行的Llama 3.1 8B模型时,Cerebras WSE-3的推理速度达到了惊人的每秒1800个token,而H100仅为242个token,性能提升了7倍多。在更具挑战性的Llama 3.1 70B模型上,由4台CS-3系统组成的集群,速度也达到了每秒450个token,远超H100的128个token。

更具杀伤力的是其成本优势。华尔街见闻的报道披露,Cerebras提供的云上推理服务,处理8B模型的成本可以低至每百万token仅10美分。相比之下,GPU方案的成本可能高出数十倍甚至上百倍。这种性价比,对于需要进行海量推理的互联网公司和AI应用开发者来说,简直是无法抗拒的诱惑。

在商业落地方面,Cerebras早期主要客户集中在科研和超算领域,毕竟这种“性能怪兽”非常对科研人员的胃口。美国阿贡国家实验室就是其忠实用户,实验室负责人Rick Stevens曾盛赞:“CS-2是那种能设定未来标准的技术拐点产品。”他们利用Cerebras的系统来加速药物分子模拟,将原本需要数周甚至数月的研究周期,缩短到了几天。

近年来,Cerebras正积极地将其无与伦比的性能优势,推广到更广阔的企业推理市场。例如,一家大型科技公司已经采用Cerebras自研的Cerebras-GPT 13B模型来开发智能客服聊天机器人,显著提升了客户服务的响应速度和对话质量。为了降低开发门槛,Cerebras积极拥抱开源社区,通过与Hugging Face等平台集成,让开发者无需重构代码就能轻松使用其硬件。

Artificial Analysis的首席执行官Micah Hill-Smith的评价极具代表性:“Cerebras Inference的速度突破了性能边界,而且价格极具竞争力,因此对于具有实时或大容量需求的AI应用开发者来说尤其具有吸引力。”

冰与火之歌:两种技术哲学的巅峰对决

当我们将SambaNova和Cerebras并排放在一起时,我们看到的不仅仅是两家公司的竞争,更是两种截然不同的技术哲学和商业战略的碰撞。这就像一场“灵巧”与“暴力”的对决,一场关于AI硬件未来走向的深刻辩论。

数据来源:SambaNova白皮书(2024)、Cerebras白皮书(2024)

SambaNova的RDA架构,其核心是“灵活性”。它追求的是一种动态的、自适应的平衡。它承认企业的AI需求是复杂且多变的,今天可能需要推理一个大模型,明天可能需要同时处理一百个小模型,后天甚至可能需要跑一些高性能计算(HPC)或SQL数据库加速任务。SambaNova的目标,就是用一套硬件平台,优雅地应对所有这些需求。它的可重构能力,使得硬件资源利用率可以始终保持在高位,避免了专用硬件在处理非优化任务时的“闲置”尴尬。这种“一专多能”的特性,尤其受到那些希望构建统一AI基础设施、保护长期投资的企业首席信息官们的青睐。

而Cerebras的WSE架构,其核心则是“极致”。它追求的是在单一任务上,特别是大模型推理任务上,将性能推到物理极限。它用最“暴力”的晶圆级集成方式,消除了所有可能的瓶颈,创造了一个近乎理想的计算环境。它的哲学是:与其去适应各种任务,不如把一件事情做到最好,做到无人能及。这种“力大砖飞”的思路,使其在特定场景下能够爆发出惊人的能量。然而,这种极致也带来了一定的“僵化”。一个CS-3系统在同一时间通常只能专注于运行一个模型,如果模型规模没有大到足以“喂饱”这颗巨芯,就可能造成算力浪费。

在性能和成本的实际表现上,两者的优劣也因场景而异。在处理像Llama 3.1 8B这样的小模型时,Cerebras凭借其无与伦比的片上带宽和核心数量,可以实现极高的吞吐量和极低的延迟,其每秒1800个token的成绩,目前看来无人能敌。这对于需要高并发、实时响应的应用(如搜索引擎、社交媒体信息流推荐)是巨大的优势。然而,当面对像DeepSeek-R1 671B这样的万亿参数级别的“史前巨兽”时,SambaNova的架构优势就体现出来了。其灵活的三层内存体系,可以在单系统内从容应对TB级的模型,而Cerebras则需要通过多台CS-3系统进行复杂的管道并行来切分模型,这不可避免地会带来通信开销和性能损耗。

在部署模式和生态建设上,两者也选择了不同的路径。SambaNova更偏向于为企业提供本地化、可控的私有化部署方案,其全栈平台和对数据所有权的强调,精准地切中了金融、政府、军工等行业的痛点。而Cerebras则更倾向于通过云服务的方式,将其极致的性能以“按需付费”的模式提供给更广泛的开发者和互联网公司,用极具竞争力的“按token计费”价格来快速抢占市场。

可以说,SambaNova和Cerebras并非简单的替代关系,它们分别代表了AI硬件演进的两个不同方向:一个是面向企业多样化需求的“平台化”和“灵活性”,另一个是面向极致性能需求的“专用化”和“极限化”。

GPU帝国的裂缝与破局者的道路

SambaNova和Cerebras的凌厉攻势,真的能撼动英伟达那看似坚不可摧的GPU帝国吗?

英伟达最大的壁垒,从来不仅仅是硬件本身,而是其经营了十几年的CUDA生态。这个生态如同一张巨大的网,将全球数百万的开发者、无数的软件工具链、算法库和学术研究都牢牢地绑定在英伟达的硬件上。对于开发者来说,迁移到另一个硬件平台的学习成本和代码重构成本是巨大的。

然而,SambaNova和Cerebras并没有选择用头去撞墙,而是找到了聪明的破局之道。首先是“性能碾压”。当你的性能优势不是10%或20%,而是10倍甚至更多时,再高的迁移成本也会变得可以接受。Cerebras在内存带宽上数千倍的领先,以及在推理速度上一个数量级的提升,就是这样一种足以改变游戏规则的力量。SambaNova通过架构创新在稀疏计算和多负载支持上的优势,则直接为企业带来了实实在在的总拥有成本降低。

其次是“软件兼容”。两家公司都深知CUDA生态的强大,因此它们都不约而同地选择了“拥抱”而非“对抗”主流软件框架。它们都提供了对PyTorch、TensorFlow等框架的无缝支持。这意味着,开发者大部分现有的AI模型代码,几乎不需要修改,就能在新的硬件上运行。SambaNova的SambaFlow和Cerebras的软件栈,会在后端自动完成所有的编译和优化工作。这种“对开发者友好”的策略,极大地降低了用户尝试新平台的门槛。

最后是“场景细分”。GPU作为一种“通用”并行计算处理器,它需要兼顾图形渲染、科学计算、AI训练和推理等多个领域,这决定了它不可能在某一个细分领域做到绝对的极致。而SambaNova和Cerebras则可以心无旁骛地专注于AI推理这个场景,针对其最大的痛点——内存带宽、稀疏计算、延迟——进行“单点爆破”。这种差异化竞争,让它们在特定的战场上,拥有了对GPU的非对称优势。

行业预测为新锐们的未来描绘了广阔的前景。根据知名咨询公司Gartner的预测,2025年,全球AI硬件支出将达到惊人的6440亿美元,其中高达80%将集中在推理领域。这片广袤的蓝海,足以容纳下多个巨头。

SambaNova用其“灵活可重构”的哲学,为身处数字化转型浪潮中的传统企业,提供了一把兼具性能、成本效益和数据主权的“瑞士军刀”。

而Cerebras则用其“晶圆级性能”的暴力美学,为追求极致速度和实时响应的互联网巨头与科研机构,锻造了一柄无坚不摧的“屠龙宝刀”。

AI硬件正从“一家独大”的GPU时代,迈向一个“百花齐放”的多元竞争时代。

参考资料:

来源:算泥社区

相关推荐