摘要:在 AI 时代,芯片作为算力基础设施的重要性与日俱增。当前,专有指令集架构(ISA)如 x86 和 ARM 在市场中占据主导地位,但其封闭性与高昂授权费用已成为技术创新的桎梏。而开源模块化的 RISC-V 架构凭借其灵活性和可定制性,正在 AI 领域展现出突破
在 AI 时代,芯片作为算力基础设施的重要性与日俱增。当前,专有指令集架构(ISA)如 x86 和 ARM 在市场中占据主导地位,但其封闭性与高昂授权费用已成为技术创新的桎梏。而开源模块化的 RISC-V 架构凭借其灵活性和可定制性,正在 AI 领域展现出突破性潜力,有望打破现有市场格局。
近期,RISC-V+AI 领域迎来多个重要进展。
据彭博社报道,由“Zen 之父”、芯片架构设计大师 Jim Keller 领衔的 AI 芯片创企 Tenstorrent 于近日完成了新一轮 6.93 亿美元的融资, 由韩国 AFW Partners 和三星证券领投, 亚马逊创始人贝佐斯的投资公司 Bezos Expeditions、LG 电子、富达等机构跟投, 本轮融资后公司估值达到 26 亿美元。这笔资金将用于扩大工程团队规模、投资全球供应链, 并建设大型 AI 训练服务器。
图丨 Jim Keller(来源:Tenstorrent)
作为一家志在挑战英伟达 AI 芯片霸主地位的初创企业,Tenstorrent 采用了与英伟达截然不同的技术路线。Jim Keller 在接受采访时表示,Tenstorrent 选择放弃使用高带宽内存(HBM),转而采用开源技术和更普及的组件。“如果使用 HBM,就无法在成本上战胜英伟达,因为英伟达是 HBM 最大的买家,具有成本优势。”Keller 解释道,“而且由于 HBM 深度集成在他们的产品和插槽中,他们永远无法真正降低价格。”
该公司最新推出的基于 RISC-V 架构的 Blackhole 加速器包含 768 个 RISC-V 核心,峰值计算性能可达 745 TFLOPS,超过了英伟达的 A100 和 L40S 加速器。该加速器将整合在 Tenstorrent 正在开发的 Blackhole Galaxy 设备。该机器将配备 32 个 Blackhole 加速器,以 4x8 网格连接,实现 23.8 petaFLOPS FP8 性能、1TB 内存和 16TB/秒原始带宽。
图丨 Blackhole Galaxy 的架构(来源:Tenstorrent)
Jim Keller 表示,Tenstorrent 的产品有望比同等性能的 GPU 系统便宜 5 到 10 倍。目前, 公司已与客户签订了总额近 1.5 亿美元的合同。虽然与英伟达每季度数百亿美元的数据中心收入相比仍有较大差距,但增长势头强劲。
与此同时,另一家来自的德国的 RISC-V 初创公司 Ubitium 近期获得 370 万美元种子轮融资, 由 Runa Capital、Inflection 和 KBC Focus Fund 共同领投。该公司计划开发出一种结合 CPU、GPU、DSP 和 FPGA 功能的“通用”处理器。
图丨 Ubitium 的通用处理器(来源:Ubitium)
该公司首席执行官 Hyun Shin Cho 解释说:"我们的微处理器架构允许芯片的晶体管被重复用于不同的处理任务,使单个处理器能够动态适应从简单控制逻辑到大规模并行数据流处理和 AI 推理等各类工作负载。"
目前,边缘设备和嵌入式系统通常依赖于集成多个专用处理单元的片上系统 (SoC),包括用于通用任务的 CPU、用于图形和并行处理的 GPU、用于加速 AI 工作负载的 NPU、用于信号处理的 DSP 以及用于可定制硬件功能的 FPGA。
这种方案虽然可行,但增加了硬件和软件的复杂性,同时推高了制造成本。更重要的是,当设备没有运行特定功能时,相应的处理单元会处于闲置状态,造成硅片面积和能源的浪费。
Ubitium 的通用处理器架构通过将相同的晶体管重复用于各种工作负载来解决这些问题。据 Shin Cho 透露,这种方法可以将系统的性能/成本比提高 10 到 100 倍。"重用晶体管显著减少了处理器中的总晶体管数量,进一步节省了能源和硅片面积。"
目前,公司已经获得了 18 项相关专利,并完成了基于 FPGA 仿真的原型验证。Ubitium 计划在未来几个月推出多项目晶圆原型和开发套件,预计在 2026 年向客户交付首批边缘计算芯片。
Ubitium 的未来目标是建立一个标准化的计算平台,简化开发流程并加速各行业的创新。"我们的工作负载无关处理器能够在无需硬件修改的情况下适应新的 AI 发展。这将使开发者能够在现有设备上实现最新的 AI 模型,降低与硬件变更相关的成本和复杂性。" Cho 说。
在国内,RISC-V 的发展也取得了重要进展。近日,中国 AI 芯片初创企业希姆计算在 RISC-V 美国峰会上发布了其 RISC-V 矩阵扩展开源项目的 0.5 版本,成为业内首家向国际社区提交完整 RISC-V 矩阵指令集及配套工具的企业,在底层技术标准制定方面实现重要突破。
图丨希姆计算的矩阵扩展开源项目发展历程(来源:RISC-V International)
从技术角度来看,希姆计算最新发布的 RISC-V 矩阵指令集采用了基于 Tile 的矩阵乘法架构设计,通过参数化寄存器架构和模块化类型系统,能够适应从边缘到云端的各类应用场景。该公司还配套更新了一系列开发工具,包括基于 LLVM 的编译器、基于 Spike 的模拟器、基于 GDB 的调试器,以及基于 SCOOP 平台的开源核心实现,为开发者提供了完整的工具链支持。
这一突破的意义在于,随着生成式 AI 的兴起,矩阵计算已成为核心计算需求。目前主流的 x86、Arm 架构都在推出相应的矩阵指令集扩展,如 Arm 的 SME 和英特尔的 AMX。而开源的 RISC-V 架构因其灵活性和可定制性,被认为很可能成为 AI 时代最理想的指令集架构选择。在这一背景下,统一的矩阵指令集标准对推动 RISC-V 在 AI 领域的应用具有重要意义。
总体来看,随着资本的持续涌入与统一标准的制定,RISC-V 生态将迎来更进一步的发展。其开源特性和高度的可定制性,使得开发者能够根据需求量身定制硬件,降低了创新的门槛,并推动了更加开放、透明的技术生态系统建设。
这种去中心化的特性尤其对中国等后发国家具有重要意义,可以减少对专有技术的依赖,增强技术自主性。随着更多企业加入这一生态,RISC-V 有望在 AI 时代与传统指令集架构形成“三足鼎立”之势,为全球半导体产业带来新的发展机遇。
参考资料:
1.https://www.theregister.com/2024/12/04/riscv_ai_champion_investment/
2.https://venturebeat.com/data-infrastructure/ubitium-tackles-edge-ai-and-more-with-new-universal-processor/
3.https://riscv.org/blog/2024/11/stream-computing-risc-v-matrix-extension-open-source-project-upgrades-to-version-0-5-supporting-vectormatrix-implementation/
4.https://www.bloomberg.com/news/articles/2024-12-02/jeff-bezos-is-betting-on-ai-chip-startup-tenstorrent-to-take-on-nvidia-nvda?embedded-checkout=true
来源:DeepTech深科技一点号