摘要:当前AI革命与过往互联网产业发展不同,利润高度向硬件环节倾斜。唐睿称,随着模型尺寸不断变大、算力需求飙升,科技企业的CAPEX(资本性支出)大幅增长且逐渐取代OPEX(运营性支出)成为主流趋势,这是因为AI整体的性能与互联带宽、内存容量深度绑定。
芯东西()
编辑 | 全球AI芯片峰会
9月17日,2025全球AI芯片峰会在上海举行,在峰会主论坛上,奎芯科技联合创始⼈兼副总裁唐睿以《Chiplet,AI算力的基石》为主题发表演讲。
当前AI革命与过往互联网产业发展不同,利润高度向硬件环节倾斜。唐睿称,随着模型尺寸不断变大、算力需求飙升,科技企业的CAPEX(资本性支出)大幅增长且逐渐取代OPEX(运营性支出)成为主流趋势,这是因为AI整体的性能与互联带宽、内存容量深度绑定。
同时,当下芯片设计周期远跟不上AI算力或者模型发展的需求,在唐睿看来,基于Chiplet的设计能加快芯片研发迭代。2021年-2030年处理器预计研发项目数量年化增长约9%,但基于Chiplet的设计年化增长率高达44%,预计2030年占比超一半。
基于这一现状,奎芯打造了基于UCle标准接口IP的国产化完整解决方案,研发了两代UCle IP,第一代为16GT/s,第二代为32GT/s,且在标准封装实现。这些IP具有高性能、低功耗、灵活性等优势,能为芯片快速迭代提供支持。
以下为唐睿的演讲实录:
ChatGPT爆发到现在只有不到三年时间,芯片设计周期一般至少两到三年,所以芯片设计的周期远远跟不上AI算力或者AI模型发展的需求。
怎么才能加快芯片的研发速度、提升芯片研发的周期?Chiplet是长期的趋势,还可以增加下游芯片设计公司的迭代速度。
一、硬件公司获得大部分利润,科技公司资本性支出大涨首先介绍一下AI产业的发展趋势。
目前的模型智能化程度越来越高,下图是AI基准测试提供商Artificial Analysis所给出的最新模型智能水平综合排名。
该排名综合了十项测试标准,包括数学基准测试AIME以及推理能力的Benchmark等。排名第一的GPT-5发布于今年8月,排名第二的Grok 4发布于今年7月,以及国产通义千问、DeepSeek-V3.1等模型也发布不久,这说明模型的性能更新日新月异。
在整个AI产业中,哪些公司或者哪些相关的产业在挣钱?
AI革命和此前互联网产业革命略有不同。因为目前仍是硬件公司获得大部分利润,一些分析师预计今年英伟达的数据中心营收会达到1800亿美元(折合人民币约1.3万亿元);博通最新的第三季度财报显示,其数据中心相关的AI硬件营收是52亿美元(折合人民币约370亿元);台积电今年第二季度的HPC营收也超过180亿美元(折合人民币约1279亿元),占总营收的80%。
而最上层的应用层,如OpenAI、Anthropic的ARR(年度经常性收入)并不是很高。今年7月,OpenAI最新ARR数据是120亿美元(折合人民币约853亿元)左右,Anthropic大概在50亿美元(折合人民币约355亿元)左右。
其余数据中心相关公司获取了大部分的行业利润和营收,包括EDA和IP公司。
为了实现AGI,五大科技巨头的资本支出非常惊人。
到今年第二季度,五大科技公司的CAPEX(资本性支出)已经飙升到970亿美元一个季度。除了这五大科技公司,刚刚上市的CoreWave今年预计CAPEX达到230亿美元,此外甲骨文在最新财报会议中透露,预计2026年的资本支出达到350亿美元震惊业界,这主要是因为OpenAI与其签订合同,预计2030年甲骨文云营收达到1440亿美元。
这个趋势印证了一个变化,这些公司的财报显示,公司OPEX(经营性支出)在这几年几乎没有增加,甚至还有略微下降,这可能与公司裁员有关,也说明CAPEX取代OPEX的现象已经在发生。
到2025年6月,美国数据中心的支出已经接近于办公室建设支出,大概都在400亿美元左右,这也进一步验证了大公司CAPEX超过OPEX的趋势。
为什么需要这么大的CAPEX?因为模型尺寸不断变大,虽然闭源模型的尺寸可能不完全透明和公开,但开源模型尺寸非常惊人,如Kimi K2的总参数规模达到1万亿。这样的模型尺寸就意味着需要庞大的算力资源去支撑模型训练,整体算力需求每年以4倍的速度增长。
除了算力,模型训练和推理对内存、互联带宽的需求也在不断提升。
目前AI整体的性能还是被互联带宽以及内存容量所绑定。
下面是一张比较老生常谈的图,20年间芯片算力提升了6万倍,但是内存带宽只增加了100倍、互联带宽只增加了30倍。
这背后的原因是,算力与芯片面积成正比,IO的带宽或接触内存的Beachfront与芯片周长成正比,带宽会随着芯片周长线性增加,但算力可以随周长增长呈几何平方增加,因此带宽永远跟不上算力的增长。
二、基于UCle标准接口IP,打造国产化完整解决方案下面介绍一下奎芯的IP和Chiplet产业。
最新的主流AI芯片非常重视互联带宽和内存容量,包括英伟达的GB300、AMD的MI355X都采用了最新的HBM3E内存。NVLink的带宽已经高达大概3.6TB/s,Infinity Fabric接近于1TB互联带宽。
整个数据中心中,CPU之间或XPU之间的互联、XPU和Switch之间的互联以及整个数据中心的Scale-Out和Scale-Up,都离不开互联IP的支撑。
目前芯片设计逐步走向Chiplet化,Marvell的数据显示,近十年整体芯片的数量年化增长约为9%左右,但是基于Chiplet设计的芯片数量年化增长为44%。2021年,Chiplet base的设计只占很小部分,预计到2030年占比将超过一半。
Open Chiplet Architecture(芯粒架构开放标准)的构想是,未来会有CPU Chiplet、Memory Chiplet、Base Chiplet、AI Chiplet,构成各家合作共赢的生态,这些Chiplet都可以通过UCIe的IP进行连接。
下图是一个典型的基于Chiplet设计的芯片,这是AMD最新GPU,有8个计算Die、8个HBM3E及两块很大的IO Die。
奎芯在UCIe IP以及Chiplet相关领域的布局:
首先奎芯研发了UCIe IP,因为UCIe IP是连接Chiplet Die的基础,所有的Chiplet小芯片都可以通过UCIe IP去进行互联。奎芯UCIe IP具备高性能、低功耗、国产化以及灵活性等优势。
目前,奎芯已经研发了两代IP,第一代速度为16Gbps,第二代为32Gbps。第二代的32Gbps基于标准封装实现,这在国内相当领先且功耗相对比较低,基本上可以控制在1.0 pJ/bit。
两块IP已经进行了测试,最新的32Gbps测试板采用5颗Die共封设计,包含1颗Single Die,10mm、25mm Die-to-Dia互连。25mm的UCIe IP测试的眼图结果,奎芯实现了72小时无误码率,眼的宽度达到0.75UI。
奎芯的UCIe IP以及Chiplet已经有客户。下图是其HPC领域客户,结合奎芯的IO Die,可以帮助客户实现HBM内存和SoC之间的解耦。一个IO Die、SoC上,都对应集成了16个标准封装的UCIe IP模组,单向速率可以完全匹配或超过HBM3的带宽要求。该企业在整个芯片设计中,采用了奎芯8对UCIe IP。
下面是奎芯ML100 IO Die的设计,这是其整体交付给客户Chiplet Base Design的一部分。
奎芯采用HBM颗粒和IO Die在interposer(中介层)上实现共封,但是IO Die UCIe和SoC内UCIe是通过Substrate进行互连。
这有如下几点好处:第一是可以解耦HBM,降低SoC的温度对HBM性能的影响;第二是IO Die模组涵盖了HBM颗粒,可以实现单独封装交付,良率可控;第三是因为排除了紧耦合,单位SoC的边长可以连接的HBM颗粒数量稍多,可进行灵活配置,同时因为Interposer只用于IO Die和HBM3颗粒之间互联,使得整体Interposer面积缩小;第四是国产化供应链的解决方案,保证了供应链的灵活性。
下图右边可以看到Interposer的尺寸以及用了多少Metal,最后匹配整体速率,与UCIe IP结合实现相对完美的速率匹配。这是奎芯基于UCIe的互连扩展方案示意图。
之前很多嘉宾谈到了分离Prefill(预填充)和Decode(解码)这两块的计算,在芯片设计领域也要考虑Prefill和Decode的计算分离。用IO Die去连接不同的内存是经济实惠的方案,那Prefill采用GDDR和LPDDR就够了。
基于奎芯的整体解决方案,企业只需要在SoC端或者计算芯片上放置其UCIe IP就可以,在IO Die上,可以基于企业所需要的内存,在UCIe到HBM的IO Die以及UCIe到LPDDR的IO Die之间做切换,方便于企业后面接外置内存进行直接切换,在SoC上不用放置不同的PHY,可以节省SoC面积,同时也可以把SoC的面积更多利用来仿真计算单元。
奎芯也在规划研发UCIe到SerDes的Chiplet,以及UCIe到Optical Chiplet的解决方案。
三、解读四大长期趋势,建立AI硬件基础服务设施平台公司最后介绍关于奎芯的未来产品规划以及愿景。
奎芯看到五到十年的长期趋势包括:
CPO在逐步取代LPO和NPO;CPO从Switch端转向XPU之间互联、XPU和内存之间互联;基于HBM4各大内存厂家都提出了Base Die的概念,可能不需要Phy;国内有很多Emerging 3D内存技术、Flash技术,都会对Base Die提出更高要求。
奎芯正在与海外客户研讨基于Optical Chiplet的内存以及互联扩展方案,包括用Optical部分解决现在的连线瓶颈,最后连接到SoC端或者是AI计算端,仍采用UCIe IP,但是在内存端可以做自由切换。
这一方案脱离了合封限制,用GDDR可能是更经济有效的方案,甚至可以用LP/GDDR来做内存,只要在带宽上满足对Prefill或者Decode不同阶段的内存需求。
XPU之间如果通过Optical互联,可以提升带宽瓶颈,真正意义上突破了周长受限模式。
奎芯也在与国内内存厂商研讨基于新型内存定制Base Die的方案,还是通过UCIe IP连接芯片。
其带宽稍微低于HBM,但大大节省了成本,同时这种方案采用标准封装,省掉了Interposer的设计和制造成本,整体上可以降低整体AI系统成本。再加上方案采用国内3D堆叠的DRAM,成本明显低于标准HBM,供应链相对可控。
其它海外内存大厂还在积极推进HBM4 Base Die的研发,这一块奎芯也在于海外大厂共同探讨合作,这里面的细节与Base Die的设计有异曲同工的相似之处。
最后是奎芯的愿景和使命。
奎芯是以互联IP起家的公司,未来希望凭借丰富的IP组合,建立领先的AI硬件基础服务设施平台公司,来引领AI和Chiplet领域的创新。
客户只要提供自己与自己算法强相关的核心计算Die,其它的非核心的Die,像IO Die也好,基本的计算Die也好,以及2.5D封装设计也好,都可以交给奎芯去做。这样的商业模式,特别适合现在大模型的快速迭代速度,以及比较感兴趣自己核心算法迭代的大模型公司或者互联网公司做一些更快速的芯片的迭代。
谢谢大家!
以上是唐睿演讲内容的完整整理。
来源:芯东西