摘要:一颗还没流片的2nm通用处理器,宣称推理性能破1000 PFLOPs,比英伟达Rubin Ultra快21倍
一颗还没流片的2nm通用处理器,宣称推理性能破1000 PFLOPs,比英伟达Rubin Ultra快21倍
这话出自一家并不算耳熟的公司,Tachyum
时间是13号,地点在线,姿态极猛
公司把这颗名为Prodigy的芯片摆上台,放出一串数字:最高1024个64位核心,频率可冲到6GHz,1GB级别的组合缓存,支持24通道的DDR5,速率写到17600 MT/s,还给了128条PCIe 7.0通道
如果按官方说法,这颗芯片能在单插槽聚拢千核,在多插槽场景往上扩,平台宣称最多16路,但1024核SKU标注为8路
问题来了:尚未制造的2nm芯片,用纸面参数对比英伟达预计2027年登场的Rubin Ultra,参考价值有多大?
这不是反问句的套路,而是接下来所有讨论都绕不开的前提
先把硬指标摆清楚
Tachyum的Prodigy 2系列处理器声称在单插槽提供最多1024个64位核心,乱序执行,每个时钟周期能发射8条指令
每个核心配128KB指令缓存和64KB数据缓存,均做了ECC,二级三级合计的LLC号称能到1GB
全系从32核到1024核给出多个SKU,TDP覆盖30W到1600W,跨度巨大
内存这边写到每个插槽可挂48TB DDR5,24通道拉满到17600 MT/s;
I/O则是128条PCIe 7.0,总计64个控制器
这些数字漂亮,也超前
保守讲,DDR5-17600和PCIe 7.0在现有服务器生态里还远未铺开,配套成熟需要时间
性能宣称是新闻的“狠点”
Tachyum说,Prodigy 2将是“首款推理性能超过1000 PFLOPs的芯片”,对面英伟达Rubin的推理指标给到50 PFLOPs
照这口径,速度是后者的21倍
在机架级别,公司进一步放大:Prodigy Ultimate的AI机架性能比Rubin Ultra NVL756高21.3倍,Prodigy Premium对比Rubin NVL144则是25.9倍
但他们没有说明Premium和Ultimate之间的具体差异,只给了结果,不给过程
从定位看,Tachyum想做一颗“通用”处理器
架构层面,他们把RISC和CISC元素揉在一起,指令定长为32或64位,并在部分指令里塞进内存访问以减少往返
官方口径是“无需昂贵的专用AI硬件”,同一颗芯片跑通服务器、AI与HPC的主流工作负载,借此提升服务器利用率、降低数据中心的资本与运维开销
软件兼容性上,他们承诺可直接运行未改动的x86二进制,与原生应用并行共存,配套给出操作系统、编译器、库和常见AI框架
ISA正推进开源,内存技术也宣称开放授权,基于标准DIMM把带宽做到10倍
这不是凭空起高楼
Tachyum总部在加州圣克拉拉,在斯洛伐克布拉迪斯拉发设有研发实验室,团队履历颇硬
联合创始人兼CEO Radoslav Danilak从PlayStation 2时代的MIPS变体干到英伟达的nForce 4与第一代Tesla“Fermi”,后来创办SandForce与Skyera并被并购
联合创始人Mullendore与Shevlyakov分别在系统架构与编译器上长期深耕,顾问阵容里有前AMD CTO Fred Weber、Arm先驱Steve Furber、以及斯坦福教授Christos Kozyrakis
Danilak的原话很锋利:“每个核心都比Xeon或Epyc更快,比Arm核心更小,总体在HPC和AI上比GPU更快”
路也并不平
时间线往回推,这颗芯片延期多年
2019年说要流片,2020年说会用台积电7nm,随后计划从2021、2022一路调到2024,再调到2025
今年更细的表述是:2025年完成流片并计划量产,但从流片、调试、出样到量产,留给现实的日历并不宽裕
为了让生态先动起来,去年底他们发了1600页的FPGA硬件性能优化指南,从指令调度、内存例程、分支对齐到寄存器转发,面向开发者给出一堆“怎么挖并行、怎么绕延迟”的手册级细节
Danilak说:“Prodigy的集成功能会把效率拉到业界领先,研究更快,结果更快”
为什么强调延迟与并行?
因为物理约束在收紧
Tachyum的论点是导线正成为新瓶颈,线更细、阻更大,延迟从每毫米约100皮秒涨到接近1000皮秒
他们的解法是把导线尽量缩短,把并行尽量抬起来,编译器把能并行的事提前拆完,让数据和计算的总往返时间变少
这套方法论解释了为什么要把核心做小、做多,也解释了频率仍要往6GHz冲的野心
钱从哪来?
十月,Tachyum透露一家欧洲投资者将于一个月内打入2.2亿美元C轮资金,并签署了5亿美元的Prodigy采购订单
如果资金如约落地,2nm流片的门槛能跨过一大步;
如果不如约,量产时间表会再次被迫后延
公司自己也承认2nm晶圆成本很高,靠尺寸缩小与更低功耗摊薄总成本,但这需要真正进厂
还有一串被写在PPT上的“大幅减少”的数字
Tachyum给出对比,说传统大规模AI方案可能要花8万亿美元,耗电超过276GW,而他们的方案有望把成本压到780亿美元,把功耗压到1GW
这组数对普通读者的意义很简单:他们想证明“同等能力更便宜更省电”
意义之外的难点同样简单:如何用第三方可复现实验把这事坐实
把镜头拉回到产品线
Tachyum按三档铺货:入门级Prodigy配4或8个DRAM控制器,核心从32到128;
中间的Premium有16个DRAM通道,核心从128到512不等,平台可以扩到16路;
最高的Ultimate集成1024个高性能核心、24条DDR5 17.6GT/s内存通道与128条PCIe 7.0
在对标英伟达的图表上,Ultimate打Rubin Ultra NVL756,Premium对Rubin NVL144,但“为何这样分组、具体配置对应何处”,没有给出脚注
关键转折在于生态与时间
DDR5-17600与PCIe 7.0目前在服务器市场罕见,要让整个平台出现在机房,光芯片做出来不够,板卡、散热、供电、固件、操作系统、驱动、编译链、应用适配,任何一个环节慢半拍,落地就晚
报道中甚至判断,Tachyum在13号展示的平台不太可能在2027年前上市;
若2030年能交付类似水准,就是“奇迹”
把视角压低到工位
开发者最关心的是:拿到手那天能不能跑起已有的栈
Tachyum反复强调“开箱即用”,操作系统与主流AI框架打包好,x86二进制可直接跑
如果这件事成真,将极大降低评估与迁移成本;
如果折在边角兼容上,企业会在第一天就失去耐心
所以真正要追问的,只有两个:钱是否准时到账,硅是否按计划回片
资金决定能不能把设计从FPGA与仿真带到晶圆厂,回片决定吹上去的峰值与机房里的持续功耗能否对上
一旦有第三方测评机构给出样片数据,这场关于“通用芯片是否能兼顾AI、HPC与传统服务器负载”的争论,会从形容词切换到数值
中心观点很克制:纸面上,Prodigy把“通用处理器”这条线拉到了极端;
现实中,唯有流片、上板、上架这三步能给答案
英伟达早年Tesla到规模应用走了好几年,Tachyum想用一颗统一架构跨越多场景,难度只会更高
若它真能站稳,将重塑数据中心的硬件预算;
若它跌倒,也给后来者留下一条“哪里更难”的清晰注脚
在此之前,少一点情绪,多看几个节点:投资到账与否,流片时间表何时公开,2026年是否出现第三方测试数据
无论结果如何,这家公司和它的2nm目标,已经把行业里最该被反复讨论的命题,又推到了桌面中央
最终能否“改写游戏规则”,不看口号,只看硅片
来源:高贵小鱼鱼
