摘要:9月19日,上交所官网公告显示,上市审核委员会定于9月26日召开审议会议,审核摩尔线程智能科技(北京)股份有限公司的首发事项。摩尔线程2020年6月成立于北京,是国内全功能GPU领域重要参与者。它借自主研发的MUSA架构与快速迭代产品,在AI算力爆发和国产替代
9月19日,上交所官网公告显示,上市审核委员会定于9月26日召开审议会议,审核摩尔线程智能科技(北京)股份有限公司的首发事项。摩尔线程2020年6月成立于北京,是国内全功能GPU领域重要参与者。它借自主研发的MUSA架构与快速迭代产品,在AI算力爆发和国产替代浪潮中崛起。其创始人张建中曾任英伟达全球副总裁,核心团队多来自国际GPU大厂,2024年末研发人员占比近80%。本次冲击上市,摩尔线程拟募集资金约80亿元,将用于摩尔线程新一代自主可控AI训推一体芯片研发项目、摩尔线程新一代自主可控图形芯片研发项目、摩尔线程新一代自主可控AI SoC芯片研发项目、补充流动资金。
极具前瞻性的布局,让摩尔线程的业务及技术积累,与当前AI算力爆发背景下的产业需求高度契合,或许很快“国产GPU第一股”就将诞生。国产替代浪潮下,市场、政策、资本对“卡脖子”技术的集中支持,让国产GPU等硬科技企业相继跨越技术验证期,在成熟度达标后迈入规模化发展的下一程。
今天就来为大家解读一下GPU芯片行业
GPU的定义与核心功能
GPU(Graphics Processing Unit,图形处理器)是一种专为并行计算设计的通用计算芯片,最初主要用于图形渲染,现已发展为支撑人工智能、科学计算等多元场景的核心算力载体。其核心功能体现在两方面:一是,通过对几何数据、纹理信息的并行处理,实现三维场景的实时绘制,支撑游戏、影视制作等领域;二是,依托海量计算单元的并行架构,处理大规模数据密集型任务,如AI模型训练、分子动力学模拟、密码破解等。随着技术演进,GPU已从“图形加速器”升级为“通用计算引擎”,成为数字经济时代的关键基础设施组件。
GPU(图形处理器)可以根据其应用端的不同,主要分为移动端GPU和桌面端GPU两大类。移动端GPU专为移动设备设计,如智能手机和平板电脑,注重功耗控制和便携性。而桌面端GPU则进一步细分为服务器GPU和PC GPU。服务器GPU主要用于数据中心和高性能计算场景,提供强大的计算能力和稳定性;PC GPU则应用于个人电脑,满足游戏、图形设计等高性能需求。这种分类体现了GPU在不同应用场景下的专业化发展,以适应多样化的市场需求。
GPU与CPU的本质区别
GPU与CPU(Central Processing Unit,中央处理器)在架构设计、任务定位上存在本质差异,核心区别体现在以下维度:
1)CPU采用“少量核心+复杂缓存”架构,通常包含4-64个高性能核心,配备多级缓存以减少数据访问延迟,适用于串行指令的高效执行;GPU采用“海量核心+简化缓存”架构,包含数千甚至数万个轻量级计算核心,通过并行调度提升数据吞吐量,牺牲单核心串行性能换取多任务并行效率。
2)CPU擅长处理逻辑复杂、分支密集的串行任务,如操作系统调度、程序控制流管理;GPU擅长处理数据并行、逻辑简单的重复任务,如矩阵运算、像素渲染,可同时对海量数据执行相同操作。
3)CPU是计算机系统的“控制中枢”,负责统筹各类任务的调度与执行;GPU是“算力加速器”,专注于图形渲染、AI计算、科学计算等特定领域,需与CPU协同工作,形成“CPU控制+GPU计算”的分工模式。
GPU的发展阶段与关键里程碑
GPU行业历经四十余年发展,可划分为四个关键阶段:
1)早期GPU为专用图形芯片,功能固化,仅支持简单的几何变换与像素填充。1985年,ATI推出首款单芯片图形控制器ATi-1000,标志着GPU雏形出现;1999年,英伟达发布GeForce 256,首次提出“GPU”概念,集成几何、光照、纹理等处理单元,实现图形渲染流水线的硬件化。
2)2001年,微软DirectX 9引入可编程顶点着色器与像素着色器,GPU进入可编程时代。2006年,英伟达发布CUDA架构,首次为GPU提供通用计算编程接口,打破图形渲染的功能局限,推动GPU在科学计算领域的应用。
3)AI浪潮推动GPU向通用计算深度转型。2016年,英伟达Pascal架构引入张量核心,专为深度学习矩阵运算优化;2018年,图灵架构加入光线追踪核心,实现逼真的实时光照渲染,GPU同时支撑图形与AI双重场景。
4)GPU与CPU、FPGA、ASIC等芯片形成异构计算体系。2022年,英伟达Hopper架构推出H100 GPU,集成Transformer引擎,进一步提升AI算力;2024年, Blackwell架构实现4位精度计算,能效比较前代提升6倍,推动通用计算芯片向“高性能+低功耗”方向演进。
GPU的核心组件
GPU核心架构由多种专用组件协同构成,各组件承担特定计算功能:
1)流处理器(Stream Processor,SP):基本计算单元,负责像素渲染、通用计算等基础指令,通过数千个 SP 并行调度实现海量数据同步处理。
2)张量核心(Tensor Core):深度学习专用计算单元,支持矩阵乘法 - 累加运算,加速 AI 模型训练与推理。
3)光线追踪核心(Ray Tracing Core):实时光线追踪专用单元,模拟光线物理效果,提升图形渲染真实感。
4)纹理单元(Texture Unit):负责纹理采样与过滤,将纹理映射到三维模型表面,提升渲染细节丰富度。
并行计算架构原理
GPU并行计算的核心架构是,其原理可概括为“指令广播+线程并行”:
GPU将大量轻量级线程划分为“线程束(Warp)”,通常每个线程束包含32个线程。当执行任务时,GPU控制器向一个线程束中的所有线程广播相同指令,线程束内的线程同时执行该指令,但操作各自的数据(即“同指令、异数据”)。若线程束中存在分支指令(如if-else),则需按分支路径串行执行,会产生一定性能损耗,因此GPU更适合逻辑简单的并行任务。为提升并行效率,GPU采用“延迟隐藏”策略:当部分线程因等待数据访问(如显存读取)而停滞时,调度器会切换至其他就绪线程束执行,避免计算单元闲置。这种多线程并发调度机制,使GPU在面对高延迟内存访问时仍能保持较高的计算利用率。
显存技术
显存是GPU与外部数据交互的关键介质,其性能直接决定GPU的计算效率,核心技术参数包括类型、带宽、容量:
1)主流类型包括GDDR系列(如GDDR6X、GDDR7)和HBM系列(如HBM3E)。GDDR显存侧重高带宽,适用于消费级GPU;HBM显存采用3D堆叠技术,在有限空间内实现大容量、高带宽,且功耗更低,主要用于数据中心级GPU(如英伟达H100配备HBM3E显存)。
2)带宽指单位时间内显存与GPU核心的数据传输速率,单位为GB/s。显存带宽通过“位宽×核心频率×数据率”计算,例如GDDR6X显存位宽256bit、频率21GHz,带宽可达1008GB/s。高带宽确保GPU核心在并行计算时能及时获取数据,避免“算力空转”。
3)容量指显存可存储的数据量,单位为GB。显存容量需匹配任务的数据规模,例如训练千亿参数的AI模型需80GB以上显存(如H100显存容量80GB),而消费级游戏GPU显存容量通常为8-24GB,满足游戏纹理、模型数据的存储需求。
GPU产品类型和应用
1)消费级GPU: 面向个人用户,主打游戏、内容创作场景。代表产品包括英伟达GeForce系列(如RTX 4090)、AMD Radeon系列(如RX 7900 XTX),支持4K/8K游戏渲染、视频剪辑、3D建模等,兼顾性能与成本。
2)数据中心级GPU:面向企业级AI训练、推理、科学计算场景,强调高算力、高显存。代表产品有英伟达H100/A100、AMD MI300X、华为昇腾910B,广泛应用于ChatGPT等大模型训练、自动驾驶算法研发、气候模拟等领域。
3)专业级GPU:面向专业图形设计与工程计算,通过ISV(独立软件供应商)认证,确保专业软件兼容性。代表产品包括英伟达Quadro系列、AMD Radeon Pro系列,用于影视渲染(如Maya、3ds Max)、工业设计(如CAD)、医疗影像分析等高精度场景。
4)嵌入式GPU:集成于嵌入式系统,侧重低功耗、小型化,应用于物联网、自动驾驶、边缘计算等场景。代表产品有英伟达Jetson系列、高通Adreno GPU,支撑智能摄像头、车载娱乐系统、工业机器人等终端设备的图形与AI处理需求。
关键技术指标与性能衡量
衡量GPU性能的核心技术指标包括:
1)算力单位:衡量计算能力的指标,包括FLOPS(浮点运算次数/秒)、TOPS(整数运算次数/秒)。AI算力常用FP16/FP8精度的TFLOPS(万亿次浮点运算/秒),图形算力常用FP32精度的TFLOPS,数据中心GPU算力已达PetaFLOPS级别(如H100 FP8算力4 petaFLOPS)。
2)显存带宽与位宽:显存带宽决定数据传输效率,位宽是影响带宽的关键因素(位宽越大,带宽潜力越高)。高带宽对AI训练、高分辨率渲染等数据密集型任务至关重要。
3)核心频率与Boost频率:核心频率指GPU核心的基础工作频率,Boost频率是负载较高时的动态加速频率,频率越高,单线程指令执行速度越快,但受限于功耗与散热。
4)功耗与能效比:TDP(热设计功耗)表示GPU的最大散热需求,能效比(每瓦性能)衡量单位功耗下的算力输出。随着环保要求提升,能效比已成为GPU设计的核心指标,如Blackwell架构较Hopper架构能效比提升6倍。
GPU产业链分为上游芯片设计、中游制造封装、下游应用三大环节:
上游负责GPU架构设计、指令集开发、软件生态构建,是产业链的核心环节。代表企业包括英伟达、AMD、英特尔、华为等,需投入巨额研发资金(年均研发费用超百亿美元),技术壁垒极高。
中游分为晶圆制造与封装测试。晶圆制造由台积电、三星等代工企业承担,采用7nm、5nm、3nm等先进制程;封装测试由日月光、长电科技等企业负责,将晶圆切割为芯片并进行性能测试。制造环节依赖高精度光刻机等设备,产能受半导体行业周期影响显著。
下游涵盖消费电子、数据中心、汽车、工业等领域。下游企业包括PC厂商(如联想、戴尔)、云服务提供商(如AWS、阿里云)、汽车制造商(如特斯拉)等,通过采购GPU组件或解决方案,集成至终端产品或服务中。
2020年至2024年全球GPU市场规模展现出显著的增长趋势,年均复合增长率高达62.4%。具体来看,从2020年的较低起点开始,市场规模逐年攀升,预计到2029年将达到35,000亿元。这一增长态势反映了GPU在各个领域的广泛应用和需求增加,包括但不限于人工智能、高性能计算、数据中心以及消费电子市场。数据预测显示,未来几年内,全球GPU市场的扩张速度将持续加快,预示着该行业具有巨大的发展潜力和广阔的市场前景。
中国GPU市场规模呈现出显著的增长趋势。从2020年到2025年,市场规模预计将持续扩大,具体表现为:2020年市场规模约为350亿元,2021年增长至约450亿元,2022年进一步提升至约600亿元,2023年则达到约800亿元。预计到2024年,市场规模将突破1000亿元,而到2025年,市场规模更是有望达到1200亿元。这一数据反映了中国GPU市场在近年来的快速发展和未来巨大的增长潜力,显示出该领域在技术进步和市场需求驱动下的强劲势头。
1)供应链稳定性与产能限制:GPU制造依赖台积电、三星等少数代工企业,先进制程产能紧张(如3nm产能优先供给苹果、英伟达),导致GPU产品常出现“供不应求”现象。地缘政治冲突进一步加剧芯片原材料(如光刻胶、高纯硅)的供应风险。
2)技术垄断与市场竞争格局:英伟达凭借CUDA生态形成“硬件-软件-应用”闭环,新进入者需突破生态壁垒,难度极大。全球GPU市场呈现“一家独大”格局,不利于行业创新与价格竞争,欧盟已对英伟达展开反垄断调查。
3)高性能与高功耗的平衡难题:GPU算力提升伴随功耗激增,数据中心级GPU TDP已超700W(如H100),导致散热成本高企。尽管能效比持续优化,但高性能场景下的“功耗墙”仍是技术瓶颈。
4)专利与知识产权壁垒:GPU核心技术(如并行架构、图形API)积累了大量专利,新厂商易陷入专利诉讼。例如,英伟达与AMD曾因显卡技术专利多次对簿公堂,知识产权成本成为行业准入的重要门槛。
欢迎评论、点赞、收藏和转发! 有任何喜欢的行业和话题也可以查询行行查。
来源:行行查