摘要:2024年,博通(Broadcom)股价在上涨超60%。2024年12月13日,博通的股价更是在一天内狂飙24%,市值突破1万亿美元,成为仅次于英伟达和台积电的全球第三大半导体公司。如今,其市值已经超过1.1万亿美元。
当聚光灯都照在英伟达、AMD上的时候,有一家公司已经悄然崛起了。
2024年,博通(Broadcom)股价在上涨超60%。2024年12月13日,博通的股价更是在一天内狂飙24%,市值突破1万亿美元,成为仅次于英伟达和台积电的全球第三大半导体公司。如今,其市值已经超过1.1万亿美元。
点燃资本市场对博通热情的,是一个关键词——ASIC。
另一方面,英伟达也在ASIC领域有大动作。据悉,自2024年中起,英伟达开始在台湾的半导体企业积极招聘ASIC设计工程师,涉及前段设计验证、IP整合和PHY设计等关键领域,计划在台湾开设研发中心,拟招聘1000多人。
这一切,都指向一个悬而未决的问题:GPU的时代是否已经接近尾声?是否有一种新的、更适合AI大模型计算的硬件架构正在悄然崛起?
在这场即将上演的“GPU vs. ASIC”的硬件之战中,英伟达的GPU能否继续保持其技术优势?ASIC是否能真正挑战GPU,甚至取而代之,成为下一代AI计算的主流架构?如果这一假设成立,那对于中国玩家又意味着什么?
英伟达的故事始于1993年,当时,随着个人电脑游戏市场的兴起,对图形性能的需求急剧增加。英伟达迅速瞄准这一市场,推出了图形处理单元,专注于图形渲染和计算。这个领域在当时有着明确的市场需求,英伟达凭借其高效能显卡逐步在市场上站稳了脚跟。
然而,英伟达的眼光并不局限于游戏市场。2006年,英伟达发布了CUDA(Compute Unified Device Architecture),为GPU开辟了新的领域——通用计算。CUDA的出现让GPU不仅仅处理图形渲染任务,而是能够广泛应用于需要大量并行计算的领域。
通过这项技术,英伟达成功地将GPU从单纯的图形渲染工具转型为可以进行复杂科学计算、数据处理和机器学习的通用计算平台。CUDA的发布,为后来的深度学习和AI应用奠定了技术基础,标志着英伟达迈入了新的增长轨道。
随着深度学习的崛起,尤其是卷积神经网络(CNN)的广泛应用,GPU的优势得到了进一步释放。CNN的计算需求主要集中在大量的矩阵乘法和并行计算,这正是GPU最擅长的领域。2012年,随着深度学习的广泛兴起,英伟达将其CUDA平台进一步优化,专门针对深度学习中的计算任务进行了加速。正是深度学习对大规模数据处理的高效需求,使得GPU成为了AI计算中不可替代的工具。
尤其在2016年,英伟达发布了Volta架构,搭载了专为深度学习设计的Tensor Cores。Tensor Cores优化了深度学习中必不可少的矩阵运算(如卷积层的矩阵乘法),大幅提升了计算效率。相比传统GPU,Volta架构的推出让英伟达的显卡在训练AI模型时的性能得到了飞跃性的提升。英伟达的GPU不再只是游戏和图形渲染的代名词,而是成为了大规模AI训练和推理的核心硬件。
到了2020年,AI训练任务的规模已经发生了质变,特别是像GPT-3这样的语言模型,其训练时所需的计算量远超此前任何AI模型。英伟达发布了A100 Tensor Core GPU,进一步升级了其硬件架构,针对深度学习、数据科学和推理任务进行了专门优化。
A100不仅在处理大规模AI训练时显示出优越的性能,而且具有更强的多任务处理能力,支持更广泛的应用场景。其内嵌的Tensor Cores在支持不同精度计算的同时,提升了AI大模型所需的吞吐量和效率,使得A100成为当时业内公认的AI训练“黄金标准”。
与此同时,英伟达还推出了DGX A100,这是一个集成了多个A100 GPU的计算平台。DGX A100不仅提供单GPU的强大性能,还通过多GPU的协同工作,提升了超大规模AI模型训练的效率。与传统的分布式计算平台相比,DGX A100在硬件层面的优化与软件层面的协同,使得其计算能力呈指数级提升,能够处理更大规模的模型和数据集。
尽管英伟达的GPU在AI领域的表现无可挑剔,但AI大模型的计算需求不断升级,英伟达依然面临着挑战。2021年,英伟达宣布了即将推出的Hopper架构,该架构将进一步优化AI训练中的稀疏计算能力。在AI大模型的计算过程中,很多神经网络并不是满连接的,这就形成了稀疏计算的需求。Hopper架构将在这一点上做出突破,进一步提升AI训练的计算密度,使得GPU能够更高效地利用计算资源,处理更加庞大的模型。
然而,即使在不断推出新架构的同时,英伟达也意识到,AI计算面临的不仅仅是单一硬件的挑战。2022年,英伟达推出了Grace架构,这是一款专为高性能计算(HPC)和AI任务设计的CPU架构,能够与英伟达的GPU平台无缝协作,提升数据吞吐量和带宽,为超大规模AI模型的训练提供更加有力的支持。
Grace的推出意味着英伟达不仅仅依赖GPU的单一优势,而是通过跨硬件架构的协同工作,进一步提升其在AI大模型计算中的竞争力。
英伟达的GPU无疑在过去几年中通过其强大的并行计算能力,主导了深度学习和大规模AI模型的训练与推理。但随着AI模型,特别是像GPT-4这样的超大规模神经网络的不断发展,GPU面临的局限性愈加明显。从技术本质上来讲,GPU是否能够继续满足未来AI计算的需求,甚至是否能够继续维持其在AI领域的统治地位,已经开始受到质疑。
在深入分析GPU的局限性之前,首先我们需要理解AI大模型的计算需求,尤其是这些模型如何进行工作。以GPT-4为代表的现代AI大模型,核心依赖的是深度神经网络,尤其是Transformer架构中的矩阵运算。这些矩阵运算在大规模神经网络的训练中至关重要,正是这些计算要求对硬件提出了巨大的挑战。
在一个像GPT-4这样的自然语言处理模型中,当用户提出问题时,模型背后所做的工作是通过多层的神经网络对输入文本进行处理,逐步生成回答。这个过程本质上是通过多个数学操作,尤其是矩阵乘法和加法,来执行以下几步:
1. 输入嵌入(Embedding):每个输入词语(token)被转化为一个高维的向量,这个向量会在网络中传递,代表输入信息的特征。
2. 自注意力机制(Self-Attention):在Transformer架构中,每一层神经网络首先通过自注意力机制来评估每个token与其他token之间的相关性。这一过程需要进行大量的矩阵计算,以便将各个词之间的关系融合起来。
3. 前馈神经网络(Feed-Forward Neural Network):自注意力机制处理完之后,数据会传入前馈网络进行进一步的处理。这一过程中,模型对输入数据进行非线性变换,并使用激活函数来提高表达能力。
4. 反向传播与梯度更新:神经网络的学习过程通过反向传播算法进行。这个过程依赖于计算每一层的梯度,并通过矩阵运算调整网络权重。反向传播中的梯度计算同样依赖于大量的矩阵乘法和加法运算。
可以看到,神经网络的工作原理中,最为基础和高频的操作就是矩阵运算,特别是大规模矩阵的乘法。在这类计算中,GPU的并行计算能力能够起到至关重要的作用。然而,这种计算本身的特点,决定了GPU架构与AI大模型需求之间的一些契合点,同时也暴露出一些显著的局限性。
GPU特别擅长执行并行计算,而神经网络中的矩阵运算正是高度并行的操作。英伟达的GPU通过其大量的CUDA核心和专门优化的Tensor Cores来加速这些计算任务。具体来说,Tensor Cores是英伟达为深度学习设计的硬件单元,它们优化了矩阵乘法和加法运算,特别适合执行深度神经网络中常见的浮点数计算。
但是,尽管GPU在执行这些计算时非常高效,它的架构也存在与AI大模型计算需求之间的差距。尤其是在面对超大规模模型时,GPU的架构开始显示出一些局限性。
GPU的性能瓶颈之一就是内存带宽,虽然GPU具有强大的计算能力,但它的内存和处理器之间的连接,尤其是内存访问速度,始终是一个限制因素。在大规模AI模型的计算中,模型的参数量和训练数据量越来越大,这就意味着需要频繁从内存中读取大量数据,并将计算结果写回内存。
以GPT-4为例,模型参数量达到数百亿,这导致了每次数据访问的带宽需求极其高。虽然HBM2(高带宽内存)在英伟达的A100、H100中得到了应用,但即便如此,GPU的内存带宽还是无法完全满足超大规模AI计算的要求。随着模型规模的扩大,内存访问的瓶颈问题日益严重,极大地影响了整体计算效率。
GPU的另一个瓶颈是功耗,随着GPU核心数和计算频率的增加,功耗呈现出指数级的上升。比如,英伟达的H100显卡的功耗已接近500瓦特,这对于数据中心的能效管理提出了更高的要求。特别是在AI大模型训练过程中,随着计算负载的增加,GPU的功耗和热量也随之增加,进一步加剧了散热问题。
此外,GPU的功耗问题也限制了其在大规模计算环境中的扩展性。当需要大量GPU集群时,如何有效地管理能源和散热,成了一个不容忽视的问题。在全球推动绿色计算的背景下,GPU的功耗问题显然是其持续扩展的一个潜在制约因素。
当然,最关键的还是GPU的性能提升已经进入了一个瓶颈期,尤其是在面对大规模神经网络时。虽然英伟达每一代GPU在性能上都有所提升,但其提升的幅度逐年放缓。
例如,Ampere A100的浮点计算能力为19.5 TFLOPS,而其前代Volta V100为15.7 TFLOPS,提升幅度为24%。然而,从Ampere到Ada Lovelace(即H100到RTX 4090),每一代的性能提升幅度已经趋于平缓,尤其在超大规模AI计算的背景下,这种提升的速度无法满足未来AI发展的需求。
从技术本质上看,GPU的通用计算架构并不完全契合AI大模型的需求。AI大模型,尤其是像GPT-4这样的超大规模网络,往往对某些特定操作(如矩阵乘法、前馈网络的线性变换等)有非常高效的需求,而GPU的通用性架构需要在多个计算任务之间做出平衡,导致其在某些特定操作上难以做到精细化优化。
这也就意味着,未来为了应对AI大模型不断增长的计算需求,我们可能需要寻找一种能够专门针对AI计算优化的硬件架构。这正是ASIC(专用集成电路)所能解决的问题,它能够专门为AI大模型计算设计,更好地契合这些模型的需求。
如果这个假设成立,那ASIC就像是射向英伟达的一颗子弹,会对其帝国产生不小的威胁。
在AI大模型的训练和推理中,GPU和ASIC都展示出了强大的计算能力。然而,它们的计算架构和优化方法有着深刻的区别,这种区别不仅影响到计算性能,还直接关系到它们能否满足超大规模神经网络的需求。为了深入理解这些差异,我们需要从底层原理、硬件架构和计算方式上进行详细分析。
● 通用性与专用性:架构设计的根本差异
GPU和ASIC的核心区别首先体现在它们的架构设计上,GPU的设计初衷是为图形渲染而生,其结构更侧重于并行计算。
然而,尽管GPU在这些任务上表现出色,它的本质仍然是一个“通用计算平台”。换句话说,GPU的设计是为了处理广泛的计算任务,包括但不限于图形渲染、视频处理和科学计算等。这种通用性使得GPU在处理深度学习任务时,虽然有专门的加速单元(如Tensor Cores),但依然面临着一定的资源浪费和计算冗余。
相比之下,ASIC的设计是为特定任务量身定制的。ASIC(专用集成电路)是针对特定应用设计的硬件,其所有计算资源和逻辑单元都围绕一个核心任务来优化。比如,Google的TPU就是为深度学习任务定制的ASIC芯片,它专门优化了矩阵乘法、卷积操作等神经网络中的关键计算步骤。因此,ASIC不仅在计算能力上能做到“精准匹配”,还能够消除不必要的冗余计算。
● 矩阵运算优化:GPU与ASIC的差异
矩阵运算是神经网络计算中最基础的组成部分,尤其在深度学习中,矩阵乘法的计算量庞大,精度要求高。因此,如何高效地处理这些矩阵运算,直接决定了AI计算的效率。
在GPU中,英伟达通过Tensor Cores优化了矩阵乘法操作。Tensor Cores是专门设计的硬件单元,能够在一个时钟周期内执行多个浮点运算,从而加速神经网络中的矩阵计算。虽然这种优化对于大多数深度学习任务已经足够有效,但它仍然是“软件优化与硬件加速结合”的结果。
虽然,通过CUDA编程模型,开发者可以灵活地将计算任务分配到GPU的多个核心上,但这种灵活性也意味着GPU在深度学习任务中的优化并非尽善尽美。每一代英伟达GPU都通过增加更多的CUDA核心、提高时钟频率来提升性能,但它们依旧是在一个通用计算框架内进行优化,这就带来了功耗和计算冗余的问题。
反观在ASIC,其矩阵运算优化则直接体现在硬件级别。Google的TPU就是一个很好的例子。TPU专门为深度学习任务设计,它的计算单元通过硬件级别的设计深度优化了矩阵乘法、卷积和其它基础神经网络操作。与GPU不同,TPU的硬件资源和计算通路是专门为处理神经网络而定制的,这种专用化的设计使得TPU能够在执行这些特定任务时,消除任何不必要的计算步骤和资源浪费,从而在效率和能效上远超GPU。
这种硬件级优化,使得ASIC可以在特定的计算任务中达到极致的性能。例如,TPU通过数以千计的处理单元来并行处理矩阵计算,而每个处理单元都能够直接执行神经网络中的矩阵乘法任务。这样的设计可以大大减少数据传输的延迟,并优化计算资源的使用效率。
● 性能、功耗与效率:硬件定制化的优势
另一个显著的差异在于能效,虽然英伟达的GPU通过硬件优化(如Tensor Cores)和软件优化(如CUDA框架)有效提升了深度学习任务的性能,但其整体架构依然是为多种任务服务的,计算过程中的能效无法与ASIC相提并论。
GPU在处理深度学习任务时,虽然性能强劲,但它的功耗通常较高,尤其是在超大规模模型计算中,功耗和散热成为限制其扩展性的瓶颈。
与之相比,ASIC的设计从根本上考虑到了高效的功耗管理。由于其专用化设计,ASIC能够根据任务的特点优化计算流程,减少冗余计算,最大限度地提升计算效率,大幅度降低功耗。
● 灵活性与效率的抉择:GPU与ASIC的应用场景
尽管ASIC在效率和能效上无可比拟,但GPU的优势在于它的灵活性。GPU可以适应各种不同的计算任务,尤其是在多个计算任务并行执行的场景中,GPU仍然是一个强大的计算平台。GPU能够通过CUDA等软件框架灵活地调度资源,满足各种复杂计算的需求。它非常适合在不断变化的AI任务中发挥作用,尤其是在需要调试和开发的早期阶段。
然而,当AI任务变得越来越专业和规模化时,ASIC的专用性开始展现出不可替代的优势。尤其是在超大规模AI模型训练、推理的场景下,ASIC能够通过精细化的硬件设计,为每个计算步骤提供最优化的支持,从而提高计算效率,降低能耗,实现更快速、更经济的计算。
在现阶段,GPU仍然是AI计算的主流硬件,而ASIC则作为特定任务的加速器,弥补GPU的不足。未来的AI计算格局,很可能会是在GPU与ASIC的结合使用下展开。
在目前的ASIC玩家中,博通和谷歌是两个最典型的代表。
尤其是博通,在ASIC领域的发展呈现出强劲的态势。据悉,在2024财年,博通的AI业务(网络芯片+ASIC定制芯片)营收达122亿美元,同比增长220%。这一增长势头在未来预计将持续,预计2027年可服务潜在市场规模为600-900亿美元。
博通收支拆解 数据来源:同花顺
博通的核心技术产品,是基于对XPU的定制化设计和高性能互联技术。通过定制化的ASIC芯片,满足不同客户在特定任务上的高效计算需求。例如在与谷歌合作的TPU项目中,博通为TPU提供了关键的芯片间互联通信知识产权,助力谷歌的TPU在深度学习推理和训练中优化矩阵乘法等关键计算操作,提升了AI计算效能。
另一方面,谷歌在ASIC领域的发展也取得了显著成果。谷歌早在2013年就开始自研芯片,2016年推出TPU v1,2024年发布第六代TPU Trillium并向谷歌云客户开放。其核心技术产品TPU系列采用了脉动阵列等专为AI设计的芯片架构,在执行矩阵计算时具有存储消耗少、功耗低等优势。而且,其TPU还与谷歌的TensorFlow XLA生态紧密结合,能够更好地发挥其在深度学习中的作用。
博通和谷歌在ASIC领域的发展,呈现出紧密的合作关系。博通为谷歌提供关键的芯片技术支持,助力谷歌的TPU发展。谷歌则通过不断优化TPU的性能和应用,推动整个ASIC市场的发展。
需要指出的是,尽管ASIC芯片在AI计算中蕴含着巨大的潜力,尤其是在超大规模AI模型的计算需求中,但它要想真正超越GPU,面临的技术挑战和生态瓶颈却远比想象中的复杂。
● 灵活性与适应性:ASIC的“硬伤”
ASIC的最大优势在于它的专用性,而正是这种“为一项任务量身定制”的特性,使得它在特定应用上具备无可比拟的效率优势。然而,这种专用性也让它在面对AI领域的多样化需求时显得捉襟见肘。
AI的核心动力之一就是其无穷变化的需求——从自然语言处理到计算机视觉,再到强化学习,每一个AI任务的计算方式都可能截然不同。为了应对这些变化,GPU展现出惊人的灵活性,它的架构虽然是通用的,但却能够快速通过软件框架(如CUDA、TensorRT等)进行调整,适配各种计算需求。
然而,ASIC的设计一旦固定下来,就难以快速变更。想象一下,若AI领域出现一个突破性的算法(如自我监督学习、量子计算),ASIC是否能够快速适应?很显然,答案是否定的。GPU通过不断的软件更新和架构优化,已经进入了“自我进化”的循环,而ASIC依赖的是硬件本身的精确优化,其适应新需求的速度远远慢于GPU。这种灵活性的匮乏,注定了ASIC在面对不断变化的AI场景时的短板。
● 开发成本与周期:在迅速发展的技术面前,ASIC的慢性病
硬件的开发,尤其是ASIC的设计,不仅仅是技术上的挑战,更是时间和资金的考验。与GPU相比,ASIC的设计周期长、成本高,且无法像GPU那样依赖现有的广泛的开发工具和生态。在GPU的世界里,英伟达的CUDA平台已成为所有开发者的“标配”,无数深度学习框架和应用都在此基础上进行优化和开发。这使得英伟达能够在每一次技术迭代中,通过软件加速架构的优化来提升性能,而ASIC则没有这么便利的“捷径”。
例如,谷歌的TPU系列从发布至今,经历了多个迭代,每次改进都需要极其精细的硬件优化。而这种优化,往往是在有限的资源和时间窗口内进行的。ASIC的这种“硬件驱动”的进步方式,意味着它在面对市场对算力日益增长的需求时,反应速度远不如GPU。更重要的是,AI技术的迭代速度极快,每一代的新模型、新算法都要求计算硬件能够提供迅速而精准的适配,而ASIC的开发周期和高成本,无疑使它在竞争中处于劣势。
● 生态挑战:没有“CUDA”的ASIC,如何超越GPU?
当我们讨论GPU的成功时,不可忽视的一个关键因素是英伟达在全球开发者心中所建立的深厚情感和技术“粘性”。CUDA作为一个面向AI、深度学习的并行计算框架,几乎成为了AI应用的默认标准。
它不仅是一组API,更是一个巨大而深远的生态系统。从开源框架(如TensorFlow、PyTorch)到商业应用,再到云计算平台,所有主流AI工作负载都在CUDA的支持下迅速发展。英伟达不仅打造了强大的硬件,还通过生态建设,为AI开发者提供了一个高效、便捷的开发环境。
但对于ASIC而言,如何打造一个类似的开发者生态?没有类似CUDA的生态平台支持,ASIC的性能优势将难以广泛推广。就像过去的GPU能在深度学习领域异军突起,不仅是因为它的硬件能力,更因为有了一个全世界开发者都愿意参与的生态系统。ASIC如果没有强大的平台和开发者支持,注定只能是一个“孤岛”,无法与GPU一争高下。
从根本上来说,任何想要挑战GPU主导地位的ASIC,必须拥有一个能够跨越硬件与软件之间鸿沟的生态支持平台。这不仅仅是一个技术问题,更是一个商业模式、开发者生态与产业合作的问题。单靠硬件的提升,显然无法撼动GPU的江山。
对于中国企业而言,英伟达在GPU上的壁垒太深厚了,要突破几乎没什么可能。而ASIC的出现,则给了中国企业另外的选择。相对于被英伟达称霸的GPU,ASIC还是一块“处女地”。
当然,中国的AI芯片企业,想要实现“弯道超车”,同样需要付出巨大的努力。那么,可以怎么做呢?
在硬件层面,可以借鉴Google TPU的定制化思路,追求芯片的高度专业化,针对AI大模型训练、推理等核心任务进行深度优化。这意味着,AI芯片不仅需要在算力和能效上突破现有瓶颈,还要在AI的多样化场景中实现精准适配。
与GPU的“通用”架构不同,ASIC芯片的优势正是源于其“专用”特性。中国的AI芯片企业可以在推理加速、低延迟计算、低功耗优化等方面,进行极致定制化设计。以智能医疗、自动驾驶、智慧城市为代表的垂直行业,正是ASIC芯片的“蓝海”。如果能够在这些领域实现“技术壁垒”,就能为后续的市场扩展提供强有力的支撑。
硬件产品只是第一步,未来AI芯片的竞争,决定性因素往往在于“生态”。中国的AI芯片公司,必须加速构建软硬结合的开发者生态。例如,寒武纪、壁仞科技、华为等的AI芯片,除了硬件技术的突破外,必须要有与之匹配的软件开发工具和平台。从深度学习框架到开发者工具,再到云端服务的集成,只有构建起从硬件到软件、从平台到应用的完整生态,才能真正与全球巨头抗衡。
可以说,中国AI芯片产业正站在一个重要的历史节点上。
以前,我们经常问“谁是中国版英伟达”。现在,更合适的问题,也许是“谁是中国版博通”。
来源:数据猿