DeepSeek时代,ASIC芯片加冕为王

B站影视 电影资讯 2025-04-11 09:43 1

摘要:从2022年底ChatGPT横空出世,到2023年百模大战,再到近三个月OpenAI推出GPT4.5、xAI发布Grok3、Anthropic推出Claude3.7 Sonnet、Meta发布Llama4,大模型迭代速度一直在加速。而国内则迎来一场开源的狂飙突

半导体工程师 2025年04月11日 09:36 北京

从2022年底ChatGPT横空出世,到2023年百模大战,再到近三个月OpenAI推出GPT4.5、xAI发布Grok3、Anthropic推出Claude3.7 Sonnet、Meta发布Llama4,大模型迭代速度一直在加速。而国内则迎来一场开源的狂飙突进,DeepSeek开源了V3和R1,阿里通义千问开源了全新推理模型QwQ-32B。在这样的发展之下,中国生成式AI用户达到3亿,超过人口的20%还多,而在去年年底这一数字是2.49亿,三个多月的时间就增长了5000多万。

对AI大模型来说,落地才是最紧迫的任务。所以,AI芯片的混战下半场,已然逐渐从训练端,卷到推理端。从器件形态来看,ASIC面对AI推理的效率一定更高。

昨日,谷歌最强AI芯片第七代TPU(张量处理单元)——Ironwood正式亮相,这款TPU芯片性能狂飙3600倍,直接叫板英伟达Blackwell B200。这或许意味着,ASIC的战争更进一步了。


ASIC:和GPU相互补

众所周知,

但与之相对的,ASIC的开发需要很长的开发周期,并且具有很大的开发风险,所以英伟达GPU凭借其强大通用算力和软件生态在AI时代取得胜利。

厂商对能效比和成本的追求是永无止境的,谷歌、亚马逊、Meta、OpenAI等大型云计算和大模型厂商均加速布局定制化ASIC,ASIC正逐步发展成为英伟达GPU之外的重要新技术路线。摩根士丹利预计,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,复合增长率达34%。

对AI训练来说,需要很强大的并行算力,而AI推理则对算力需求有所下降,同时算法也相对固定,加之目前很多企业的ASIC基本都完成研发。所以,现在逐渐形成英伟达GPU主导AI训练,推理阶段更多厂商转向ASIC芯片的局面。当然,其中也有一些例外情况,比如苹果选择使用谷歌TPU训练模型。

DeepSeek的出现更是推动行业关注推理上限,提升算力效率并降低成本,使竞争格局更趋多元。需要强调的是,ASIC最终不会取代GPU,而是与其分工协作。


谷歌TPU:性能再次起飞

TPU是一种专为处理张量运算而设计的ASIC芯片,由谷歌自研在2016年推出首款产品。在深度学习的世界里,张量(多维数组)是无处不在的。TPU就是为了高效处理这些张量运算而诞生的。

昨日,谷歌正式发布旗下第七代张量处理单元(TPU)Ironwood。谷歌称,在大规模部署的情况下,这款 AI 加速器的计算能力能达到全球最快超级计算机的24倍以上。

单芯片规格上,Ironwood显著提升了内存和带宽,每块芯片配备192GB高带宽内存(HBM),是去年发布的上一代TPU Trillium的六倍。每块芯片的内存带宽达到7.2 terabits/s,是 Trillium的4.5倍。

此外,Ironwood拥有超模的技术规格,当每个pod扩展至9216块芯片时,可提供42.5 exaflops的AI算力,远超目前全球最快的超级计算机El Capitan的1.7 exaflops。每块 Ironwood芯片的峰值计算能力可达4614TFLOPs。

目前,TPU芯片已经成为全球第三大数据中心芯片设计厂商,据产业链相关人士透露,谷歌TPU芯片去年的生产量已经达到280万~300万片之间。


国产TPU:耗时5年的全自研产品

国内也有一家厂商布局TPU,它就是中昊芯英。

中昊芯英由前谷歌TPU芯片核心研发者杨龚轶凡携一批来自于谷歌、微软、三星等海外科技巨头公司的AI软硬件设计专家于2018年创立。致力于以自研的TPU架构高性能AI芯片“ 刹那 ”与计算集群“ 泰则®”为核心,构建AI大模型计算所需的、国产自主可控的、能够匹配海外先进水平的AI算力基石。当前已与各地政府、运营商、企业合作建设多个超大规模智算中心。

创始人杨龚轶凡拥有斯坦福大学硕士及密歇根大学学士学位,持有54项中国专利及15项美国和欧洲专利,发表ASSCC/ISSCC/JSSCC顶级论文3篇。深耕硅谷高端芯片研发十余年,曾主导Google TPU 2/3/4芯片研发及甲骨文SPARC T8/M8等12款高性能CPU设计,累计成功流片超10次。

产品方面,中国首枚高性能TPU架构AI芯片“ 刹那 ”是中昊芯英历时近5年全自研的GPTPU架构高性能AI芯片,拥有完全自主可控的IP核、全自研指令集与计算平台。在用于AI大模型计算场景时,“ 刹那 ”的算力性能超越海外著名GPU产品近1.5倍,能耗降低30%,成功打破了国外企业在高端AI芯片领域的垄断地位。

“刹那 ”实现可重构多级存储、存算一体设计、以及流水线式的时空映射,以强大的并行处理能力实现大模型计算速度和精度的双重提升。同时采用Chiplet技术,2.5D封装实现同等制程工艺下的性能跃升。支持1024片芯片片间互联,系统集群性能远超传统GPU数十倍,集群扩容时性能可线性增长,以构建千卡、万卡规模超算集群。

基于“刹那”芯片构建的“泰则” AI计算集群系统,实现1024片AI芯片的高速片间互联,集群可实现线性扩容,单集群最大浮点运算能力达200P以上,系统级性能比传统GPU集群提升数十倍 “泰则®”大规模AI计算集群可支撑包括超千亿参数AIGC大模型运算、高级无人驾驶模型训练、蛋白质结构精密预测、AlphaGo、 AlphaZero 等在内的各类高强度Al运算场景。


LPU:Groq借势起飞

AI

早在今年1月有消息传出,美国推理芯片公司Groq已经在自己的LPU芯片上实机运行 DeepSeek,效率比最新的H100快上一个量级,达到每秒24000token。

此外,Groq曾于2024年12月在沙特阿拉伯达曼构建了中东地区最大的推理集群,该集群包括了19000个Groq LPU。

那么LPU到底是什么?

LPU本质上是专门为处理自然语言(NLP)任务而设计的一种新型硬件处理器(ASIC芯片)。不过,LPU和其他ASIC不一样的地方在于存储。其采用同时采用存算一体设计,把GPU中的HBM,换成了容量更低、但速度更快的SRAM。将高带宽片上SRAM直接集成到芯片内部,有效地降低了内存的访问延迟,还显著提升了整体计算的吞吐量。说白了,就是ASIC+存算一体,所以比GPU快。

不过,虽然换成了SRAM,速度确实变快了,但是整体成本可能反而更高了。曾经有人粗略计算过,按照三年时间的运营成本来计算, Groq LPU采购成本会是英伟达H100的38 倍,运营成本达到了10倍。这么来看,其实LPU并没有媒体们渲染地那么“神话”或者“王炸”。

虽然在通用性还有性价比LPU没有GPU好,但是LPU的确实打实地提升了计算能力,拥有很好的能效比,也是可行路线之一。


NPU:时代的新宠

与TPU和LPU不同,NPU主要是用在边缘AI中。大模型为AI注入新的活力之时,边缘AI的需求也随之增加,几大处理器IP厂商,都在扩展基于边缘的AI NPU,以卸载CPU的负载从而提升效率降低功耗。一些MCU厂商已在其产品中集成NPU内核,其中比如NXP、TI、英飞凌、ST、ADI等都是采用自研的NPU IP内核。市场上也会存在一些第三方的NPU IP厂商:

Arm Ethos NPU:在2020年初正式推出Ethos-U55,目前已经推出三代产品,目前产品包括Ethos-U55、Ethos-U65。目前已有ALIF、Himax(奇景)、Nuvoton(新唐)、Infineon(英飞凌)推出了基于Cortex-M55+Ethos-U55组合的产品。

安谋科技周易NPU系列:2023年安谋发布自研“周易”X2 NPU,针对ADAS、智能座舱、平板电脑、台式机和手机等细分应用场景进行了大量性能优化,此外,安谋科技还有“周易”Z系列NPU。值得一提的是,安谋科技新一代“周易”NPU实现DeepSeek-R1端侧高效部署。

Ceva:具体产品包括Ceva-NeuPro-Nano、Ceva-NeuPro-M、Ceva-NeuPro Studio等。

Cadence:Cadence的Tensilica Neo NPU是高效能、低功耗的神经处理单元(NPU),专为嵌入式AI应用设计。

Synopsys:Synopsys ARC NPX6 NPU IP 系列是业内性能最高的神经处理单元(NPU)IP,专为满足AI应用的实时计算需求而设计,具备超低功耗。该系列包含ARC NPX6和NPX6FS,支持最新的复杂神经网络模型,包括生成式AI,并提供高达3500 TOPS的性能,适用于智能SoC设计。

芯原:官方表示其NPU IP的AI芯片在全球范围内出货量超过了1亿颗,主要应用在物联网、可穿戴、智能家居、安防监控、服务器、汽车电子、智能手机、平板电脑等市场。据悉,其NPU IP已被72家客户用在了128款AI芯片当中。最新推出的VIP9000系列NPU IP提供了可扩展和高性能的处理能力,适用于Transformer和卷积神经网络(CNN)。

晶心科技:AndesAIRE AnDLA I350 是一款深度学习加速器,专为边缘和终端推理设计,提供高性能和高效能的AI解决方案。


其他ASIC芯片:伺机待发

ASIC领域,博通和Marvell是两位主要玩家,二者在AI定制芯片中占据了约70%的市场份额。

博通在AI芯片领域的核心优势在于定制化ASIC芯片和高速数据交换芯片,其解决方案广泛应用于数据中心、云计算、HPC(高性能计算)和5G基础设施等领域。最新财报显示,博通的AI相关业务收入同比激增220%,主要受AI加速器和网络设备的旺盛需求推动。博通CEO陈福阳(Hock Tan)在财报会议上透露,到2027年,其三大客户对AI定制芯片的需求规模预计将达到600亿~900亿美元。

博通有两个大合作备受关注:第一是Meta与博通已合作开发了前两代AI训练加速处理器,目前双方正加速推进第三代MTIA芯片的研发,预计2024年下半年至2025年将取得重要进展。第二是OpenAI已委托博通开发两代ASIC芯片项目,计划于2026年投产,将采用业界领先的3nm/2nm制程工艺并搭配3D SOIC先进封装技术。与此同时,虽然苹果目前仍在使用谷歌TPU,但其自研AI芯片项目已在积极推进中。

Marvell的定制ASIC业务正成为其增长的关键引擎。2019年,Marvell以7.4亿美元收购格芯(GlobalFoundries)旗下Avera半导体,正式进军ASIC市场。如今,该业务已成功吸引亚马逊、谷歌等科技巨头的订单。

2024年12月,Marvell与AWS(Amazon Web Services)达成五年多代合作协议,涵盖AI芯片定制设计,进一步深化其在云计算市场的布局。Marvell预测,随着AI算力需求爆发,ASIC业务占比将提升至25%,并预计到2028年,数据中心ASIC市场规模将增长至429亿美元。

去年年底,AWS发布了新一代AI训练芯片Trainium3。这是首款采用3nm工艺节点制造的AWS芯片,能效提高40%、性能翻倍提升。搭载Trainium3的UltraServer性能预计将比Trn2 UltraServer高出4倍。首批基于Trainium3的实例预计将于2025年底上市。

2023年,微软也发布了专门用于云端训练和推理的AI芯片(ASIC)Microsoft Azure Maia 100。Maia 100是微软为微软云中大语言模型训练和推理而设计的首款AI芯片,采用台积电5nm工艺,晶体管数量达到1050亿个,因此,当涉及到晶体管或时钟速度时,它并不属于轻量级。同时,针对AI和生成式AI进行了优化,支持微软首次实现的低于8位数据类型(MX数据类型)。


总 结

ASIC不会完全取代GPU,但将成为推理市场主导力量,也会在训练领域有所发展。谷歌TPU、国产“刹那”、Groq LPU等创新架构,正推动AI算力向高效、低成本方向发展。未来,随着大模型继续发展,ASIC一定还会有更大的发展。

来源于电子工程世界,作者付斌

半导体工程师半导体行业动态,半导体经验分享,半导体成果交流,半导体信息发布。半导体培训/会议/活动,半导体社群,半导体从业者职业规划,芯片工程师成长历程。274篇原创内容公众号

来源:芯片测试赵工

相关推荐