半导体行业:AI大模型竞赛方兴未艾,OpenAI与DeepSeek引领生态重构

B站影视 港台电影 2025-03-31 08:28 1

摘要:人工智能(Artificial Intelligence,AI)是一种模拟人类智能的技术,旨在使机器 能够像人类一样思考、学习和解决问题。AI 涵盖了多种技术和方法,包括深度学习、机器学 习、计算机视觉和自然语言处理等。自 1956 年达特茅斯会议首次提出 A

1.1.AI 推动生产变革,行业步入蓬勃发展期

(1)人工智能(Artificial Intelligence,AI)是一种模拟人类智能的技术,旨在使机器 能够像人类一样思考、学习和解决问题。AI 涵盖了多种技术和方法,包括深度学习、机器学 习、计算机视觉和自然语言处理等。自 1956 年达特茅斯会议首次提出 AI 概念之后,AI 经 历了早期的萌芽式发展,20 世纪 70 年代出现的专家系统实现了 AI 从理论研究走向实际应 用、从一般推理策略探讨转向运用专门知识的重大突破,但后续 AI 因为一系列问题陷入发 展瓶颈,进入 21 世纪,随着网络技术的发展,数据的获取变得更加容易,云计算的兴起提 供了强大的计算能力,为深度学习的应用提供了土壤,2010 年起,以深度神经网络为代表 的 AI 技术蓬勃发展,应用落地场景多点开花,尤其在近几年,大规模预训练模型时代开启, 海内外以 ChatGPT、DeepSeek 等为代表的 AI 模型竞赛如火如荼,标志着 AI 进入了一个 新的纪元。

(2)按照智能程度划分,AI 主要分为狭义人工智能(ANI)、通用人工智能(AGI)和 超级人工智能(ASI),目前 AGI 和 ASI 尚处于理论和探索阶段。ANI(Artificial Narrow Intelligence)又称弱人工智能指专注于特定任务的人工智能系统,能够高效执行特定功能, 但其能力局限于预设任务,不具备通用智能。AGI(Artificial General Intelligence)指具备与 人类相当的综合智能,能够理解、学习和执行任何智力任务,具备自主学习和推理能力。ASI (Artificial Super Intelligence)指在几乎所有领域超越人类智能的人工智能,具备自我改进 能力,可能在科学、艺术等领域远超人类。目前,ANI 已广泛应用于图像和语音识别、自动 驾驶等场景,AGI 尚未有实际应用,仍处于理论阶段,但 Sora 的问世无疑使我们离 AGI 更 进了一步。

(3)生成式人工智能(Generative Artificial Intelligence,Gen AI)是 AI 领域的重 要分支,不同于传统的 AI 仅对输入数据进行处理和分析,Gen AI 能够学习并生成具有逻辑 的新内容。Gen AI 可以学习并模拟事物的内在规律,是一种基于算法和模型生成具有逻辑 性和连贯性的文本、图片、声音、视频、代码等内容的技术。早期 Gen AI 主要针对单一模 态,如 GPT 系列生成文本、StyleGAN 生成图像。随着技术进步,Gen AI 开始结合多模态 模型,依赖于复杂的机器学习模型,实现异构数据的生成式输出,创建跨模态原创内容(例 如文本、图像、视频、音频或软件代码)以响应用户的提示或请求。在应用层面,Gen AI 可 显著提升生产效率,根据贝恩,Gen AI 可在营销方面缩减 30%-50%内容创造所需的时间消 耗,在软件开发方面缩短 15%的代码编写时间。

(4)AI 具有算力、算法、数据三大要素,其中基础层提供算力支持,通用技术平台解 决算法问题,场景化应用挖掘数据价值。数据是 AI 学习和成长的基石,决定了算法是否能 得到有效的训练和优化,数据的质量和数量也直接影响到 AI 模型的准确性和效率;算法是 AI 的灵魂,决定了 AI 如何处理数据和解决问题,其设计和选择直接关系到 AI 的性能和应用 效果;算力是 AI 运行的动力,算力提供了执行算法和处理数据所需的计算资源,强大的算 力可以支持复杂和大规模的 AI 应用。其中算力指计算设备在单位时间内处理数据的能力,AI 算力是专门针对 AI 任务(如矩阵运算、神经网络训练)优化的计算能力,需支持高并行 性和大规模数据处理,通常用浮点运算次数(FLOPS)衡量,衍生的还有 TFLOPS(万亿次 /秒)、PFLOPS(千万亿次/秒)等常见单位,算力的核心硬件包括 GPU、ASIC、FPGA 等。

1.2.AI 产业链涵盖基础设施到应用落地多个环节

(1)AI 产业链可大致分为基础设施层、模型层、平台层、应用层及服务层,其中基础 设施层包含芯片、存储、网络等,模型层包含通用模型、行业模型等。上游基础设施层是 AI 产业链的基础,主要涉及数据、算力等基础软硬件,包括 AI 芯片,代表厂商寒武纪、英伟 达等;计算、存储、网络方面,代表厂商亚马逊、微软、阿里、三星电子等。模型层是 AI 产 业链的核心部分,包括通用大模型和行业大模型等。平台层和模型层深度绑定,使大模型更 便于使用和普及。随着 AI 大模型的发展,平台中多种模型选择、如何将大模型高效且可靠 地部署于生产环境是当前的核心问题。应用层是 AI 产业链的终端环节,主要涉及 AI 在各个 领域的应用和落地,而大模型的不断更新升级有助于加速应用场景的创新及商业化落地。

(2)2024 年全球 AI 市场规模有望达到 6.16 万亿美元,同比增长 30.1%。根据 Frost & Sullivan,自 2020 年起,全球 AI 市场规模以高于 20%的同比增速呈现迅猛增长的态势, 从 2019 年的 1.91 万亿美元有望扩张至 2024 年的 6.16 万亿美元,同比增速逐年上升,2025 年开始虽然预计增速同比放缓,但整体市场有望在 2027 年扩张至 11.64 万亿美元,体现出 全球 AI 行业井喷式的发展速度。

2.1.“Scaling Law”驱动大模型不断进步

(1)AI 大模型指使用大规模数据和强大的计算能力训练出来的“大参数”模型,通常 具有高度的通用性和泛化能力,可以应用于自然语言处理、图像识别、语音识别等领域。2022 年 11 月 30 日,伴随着 ChatGPT 的推出,其亮眼的语言生成能力掀起了全球范围内的 AI 大 模型热潮,Gemini、Llama、文心一言、SORA、DeepSeek 等各类大模型如雨后春笋般涌 现。大模型作为 AI 产业链中的核心环节,推动了自然语言处理、计算机视觉等领域的突破, 显著提升了 AI 的理解和生成能力,并且在医疗、金融、教育、自动驾驶等多个行业中得到 广泛应用,有望引领人类步入第四次工业革命。

(2)按照输入数据类型的不同,大模型可分为大语言模型、视觉大模型、多模态大模 型三大类;从训练范式看,大模型也可分为基座模型、推理模型和多模态模型。1)从输入 数据类型看,大语言模型(LLM,Large Language Model)是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语 言,它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则;视 觉大模型是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像 处理和分析,这类模型通过在大规模图像数据上进行训练以实现各种视觉任务,如图像分类、 目标检测、人脸识别等;多模态大模型(MLLM,Multimodal LLM)是指能够处理多种不同 类型数据的大模型,例如文本、图像、音频等多模态数据,这类模型结合了 NLP 和 CV 的 能力,以实现对多模态信息的综合理解和分析,能更全面地理解和处理复杂的数据。2)从 训练范式看,除去上文提到的多模态模型,基座模型(Foundation Models)是一种大规模 的预训练模型,通常用于提供基础的语言理解和生成能力,特点是参数数量庞大,能够处理 复杂的语言任务;推理模型(Inference Models)是在基座模型的基础上进行进一步训练和优化的模型,它专注于提升模型的推理能力,通常通过强化学习等技术来增强模型的性能, 能够处理更复杂的任务,具备自主规划和决策的能力。

(3)深度学习作为机器学习中的重要分支,也是大模型提供了强力的技术支撑,深度 学习涵盖训练和推理两个阶段,其中训练又分为预训练、后训练两个步骤。训练(Training) 是指通过给定的训练数据集,利用深度学习算法来不断地调整和优化神经网络模型的参数, 使其能够从数据集中学习并形成对未知数据的预测能力。其中预训练(Pre-training)通常发 生在模型开发的早期阶段,目的是在大规模数据集上学习通用特征,为后续任务奠定基础, 预训练不针对特定任务,而是追求广泛的适用性。后训练(Post-Training)发生在预训练之 后,模型部署前或部署初期,后训练针对特定的任务或数据集进行额外训练,以优化模型性 能,包括 Supervised Fine-tuning(SFT,监督微调)和 Reinforcement Learning from Human Feedback(RLHF,人类反馈的强化学习)等环节。推理(Inference)是指在经过训练后, 将已经训练好的模型应用到真实的数据上,让模型对真实的数据进行预测或分类。

(4)Scaling Law 作为大模型预训练第一性原理,仍是驱动模型进步的重要定律。规 模定律(Scaling Law)也称尺度定律、缩放定律等,在 AI 领域中被业界认为是大模型预训 练第一性原理,描述了在机器学习领域,特别是对于大语言模型而言,模型性能(L,模型 在测试集上的交叉熵损失)与模型的参数量大小(N)、训练模型的数据大小(D)以及训练 模型使用的计算量(C)之间存在一种可预测的关系。这种关系通常表现为随着这些因素的增长,模型性能会按照一定的幂律进行改善。预训练阶段的 Scaling Law 依然是目前 GPT 范式中成本最高的训练阶段,99%的计算在预训练阶段中。

(5)大模型中存在一种“涌现”现象,进一步证明模型参数量等属性大小的重要性。 “涌现”在物理学中的解释是指系统的量变引起行为的质变,在 AI 领域中,涌现能力 (Emergent Abilities)在较小的模型中不出现,通常只在大模型中出现,尤其是大语言模型。对于 GPT-3 等模型针对涵盖数学、历史、法律等等一系列主题的基准测试,结 果显示,对于 GPT-3、Gopher 和 Chinchilla,小于等于 10B 参数时,准确率等表现结果并 没有超过随机太多,但一旦参数量达到 70B-280B 时,性能大大超越了随机效果,这个结果 或意味着跨越某个阈值,模型解决大量以知识为基础的、涵盖多个领域的问题的表现会出现 质的飞跃(对于没有检索或访问外部内存的稠密语言模型来说),进一步体现模型参数量、 数据量等大小的重要性。

(6)尽管硬件层面限制等因素致使当前大模型参数规模的提升速度已经有所放缓,但 各大头部厂商仍在持续投入数据中心建设。以 GPT 系列模型为例,GPT-3 的参数规模是 GPT-2 的 100 倍左右,而 GPT-4 相比 GPT-3 仅仅翻了 10 倍左右,下一代模型在参数规模 上可能增加 3-5 倍。目前模型规模增加的主要限制因素在硬件层面,模型参数过大对于 GPU 训练集群的内存要求和通信要求极高,但目前物理基础设施能力的提升比软件更慢,尽管如 此,各大头部云服务厂商仍在不断加码 AI 基础设施投入,为未来更大规模的大模型作准备。

(7)除了训练与推理环节的投入之外,模型架构的创新也在不断引领模型进步,目前 主流的两种模型架构分别为 Transformer 和 MoE 架构。 1)Transformer 是一种基于自注意力机制(self-attention mechanism)的神经网络 架构,通过并行处理整个输入序列。自注意力机制让模型在处理每个单词时,都能计算该单 词与其他所有单词的关联程度,给不同单词分配不同的“注意力权重”,从而捕捉到文本中词 汇之间丰富的语义关系,理解上下文,提升了长序列的处理能力。标准的 Transformer 由多 层堆叠的编码器(Encoder)/解码器(Decoder)组成,捕捉输入序列的长距离依赖关系, 但每个输入样本会经过所有层和所有参数的计算,属于一种稠密(Dense)架构,计算量随 着序列长度的增加而显著增加,需要大量的计算资源和内存来存储中间结果。采用 Transformer 架构的大模型包括 GPT-1、GPT-2、GPT-3 等。 2)MoE(Mixture of Experts,混合专家模型)通过组合多个专家网络处理输入数据, 每个专家是一个独立的神经网络,专注于处理特定类型的输入,由门控机制(gating mechanism)根据输入数据动态选择最合适的专家,并将它们的输出加权组合。区别于 Transformer 会激活所有参数,MoE 只激活部分专家网络,计算是稀疏(Sparse)的,可显 著降低计算成本,在模型规模扩展方面,MOE 架构具有很强的灵活性。通过增加专家网络 的数量,就能轻松扩展模型的规模,提升模型的能力,而不需要对模型结构进行大规模改动。 采用 MoE 架构的大模型如 DeepSeek-V3。

2.2.大模型商业化模式有望通过 AI Agent 实现转型

(1)未来五年全球大模型行业市场规模的 CAGR 有望达到 36.23%。随着 AI 技术的不 断进步和应用场景的日益丰富,大模型的市场规模日益扩展,2021 年,全球大模型市场规 模同比增长 132%,2020 年至 2024 年,全球大模型市场规模有望从 25 亿美元飞速扩张至 280 亿美元,增长十倍以上,2025 年或将扩张至 366 亿美元,同比增长 30.71%,虽然增速 有所放缓,但未来五年,全球大模型行业市场规模有望以 36.23%的年复合增长率扩张至 2029 年的 1314 亿美元。

(2)目前,大模型的主要盈利模式是基于用量的一种商业模式,核心理念是通过 API 调用收费,此外还有广告、模型推理部署方向的业务模式。基于用量的收费模数主要按照 Tokens、调用次数、时间区间等维度来收费,也是当前主流的盈利方式。除此之外,模型在 云端或者本地部署也是模型盈利的重要形式,还有一些 AI 大模型相关的 app 因为下载量巨 大,吸引到部分商家投放广告,进而形成了广告收入。

(3)模型 API 本质是一种 MaaS(Model as a service)模式,是海外大模型的核心 商业模式,国内市场由于差异化程度较低,规模相对较小,低价竞争策略或将长期持续。API (Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是 提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码, 或理解内部工作机制的细节,在大模型层面,开发者通过 API 这一标准化接口调用大模型功 能,而无需从头训练模型,只需发送请求即可获得模型的输出。通过 API 调用从而盈利的特 点是简单易用、复杂性低和定制化程度低,模型能力是唯一的差异化之处,这本质是一种基 于底层模型用量的模式,再增加一部分产品层的溢价构成定价。API 行业需求方较为碎片化, 来自各个行业,从供给层面看,模型 API 是海外大模型的核心商业模式,从国内市场看,由 于国内模型能力缺乏差异化,行业低价竞争趋势等因素,整体市场规模较小,难以成为模型 厂商的主要收入来源。

(4)按照 Token 计价是大部分大模型 API 的收费方式,国内外大模型对于 Token 的 标准并不统一,定价也差别较大,其余还有按照时间区间计价、调用次数等计价模式。Token 在大模型中的含义是最小文本单元,可以直观地理解为字或词,但目前 Token 和单个汉字、 英文字母之间的关系并没有统一的计量标准,各大模型也各不相同,但总体来说 1 个 token ≈1-1.8 个汉字,在英文文本中,1 个 token≈3-4 个字母。定价方面,不仅对于不同大模型 收费标准不同,对于一些大模型来说,在不同时间段使用的定价也不同。此外,按照时间区 间计价主要是针对个人用户的订阅制收费模式,可按照年、月、周等维度购买服务(如 ChatGPT),按照调用次数的计价模式则方便用户按需购买。

(5)定制化服务主要是指模型推理部署,包含云端、本地、边缘及混合部署,是国内 大模型市场的核心业务模式,贡献了大部分营收,其中云端部署是目前最为普遍的大模型部 署方式。1)云端部署是当前模型推理部署的主流方式,分为私有云部署和公有云部署,私 有云部署是企业将模型部署在自己管理的云基础设施上,结合了本地部署的控制权和云的灵 活性,公有云部署则是企业将模型和数据托管在云服务商提供的基础设施上; 2)本地部署 需要企业有完善的 IT 基础设施,是将大模型部署在企业自己的物理服务器上,适用于需要 极高数据隐私或对外部依赖有严格要求的场景;3)边缘部署是指将原本运行在云端或大型 服务器上的大模型通过优化和压缩后,部署在靠近数据产生源头或应用场景的“边缘设备” (如手机、传感器、本地服务器、IoT 设备等)上运行的技术方案,核心目标是通过本地化 处理,减少对云端服务器的依赖,从而提升响应速度、保护数据隐私,并适应网络不稳定的 环境;4)混合部署是将私有云和公有云结合使用,将一些关键任务(如训练、大规模数据 处理)放在私有云中,而将推理任务或其他非机密任务放在公有云中。

(6)从国内大模型项目落地的应用领域看,2024 年落地项目数量排在前三位的分别为 通信、教科和政务,落地项目金额前三位分别是政务、教科和能源。从 2024 年国内公开披 露的大模型落地项目看,在教科、通信、能源、政务、金融等行业数量和金额都相对较多。 其中,从数量维度看,排名前五的行业分别为通信(25.99%)、教科(25.33%)、政务(11.38%)、 能源(11.18%)和金融(8.75%),从金额维度看,排名前五的行业分别为政务(34.64%)、 教科(15.95%)、能源(11.14%)、通信(11.04%)和金融(3.71%),总体来说,政务行业 单个项目涉及金额较大,其次为能源。

(7)随着模型能力不断提升,业务不断成熟,未来以 AI Agent 为代表的基于结果和价 值创造的商业模式有望逐步落地。大模型的三种应用模式分别为 Embedding、Copilot 和 Agent,在 Embedding 模式中,大模型被集成到现有的应用程序或服务中;Copilot 模式中, 大模型充当助手的角色,为用户提供实时的建议和支持;Agent 模式中,大模型被赋予了一 定程度的自主权。近日,Manus 作为“全球首款通用 AI Agent”问世,引发市场热情。AIAgent 以大模型为核心引擎,但是区别于用户基于提示词(prompt)与 AI 模型交互,AI Agent 具备通过独立思考、调用工具逐步完成用户给定的目标的能力,主打“直接完成工作”,本 质是一个控制大模型来解决问题的代理系统。与上文模型 API 不同,这种基于结果和价值创 造的商业模式更加复杂,且需要可衡量的结果和交付价值,目前模型厂商的产品形态还几乎 不支持对直接基于模型产生的实际效益去定价,但这种模式能更好地满足客户需求。目前, Copilot 类产品首先实现商业落地,AI Agent 或首先从垂直场景开始逐步探索,未来在模型 能力不断上升、产品模式更加成熟后,有望成为新的下游应用增量点。

2.3.大模型竞争日趋白热,未来玩家格局或将逐步收敛

(1)大模型的能力日新月异,护城河不明确,规模效应尚未显现,厂商需要持续大量 投入参与市场竞争。互联网时代,厂商可以根据用户画像进行相关推荐,形成了较强的用户 关系网络,规模效应能够显著降低成本,且部分 APP 的迁移成本较高,头部厂家都形成了 自己清晰的护城河,能够维持稳定较好的利润水平。区别于互联网,大模型目前产品较为同 质化,迁移成本较低,用户关心的是模型的智能程度和成本,且目前行业仍处于前期大规模 资本投入阶段,大模型能力不断突破上限,规模效应尚未显现,因此厂商仍需要长期大量投 入从而参与市场竞争,维持领先地位。

(2)从海外大模型厂商来看,整体竞争格局日益白热化,尽管 GPT 拥有先发优势,但 是以 Claude、Gemini 等为代表的大模型正在迅速追赶缩小性能差距。总体来说,模型能力 决定市场份额,OpenAI 在 2023 年初发布 GPT-4 时由于领先的模型能力在市场有较强的竞 争力,但后续 Anthropic、Google 相继迭代旗下的大模型,目前 Claude、Gemini 的最新旗 舰版大模型已经在性能上逐步赶上或在某些领域超越 GPT 系列模型,模型差距相比 2023 年显著缩小。

(3)目前,OpenAI、Anthropic、DeepMind 形成了海外大模型的第一梯队玩家,第 二梯队包括 xAI、Meta 等,第三梯队玩家逐步被头部厂商吸收,小模型厂商在激烈的市场 竞争下被淘汰出清,未来竞争格局将逐步收敛至头部 5 家厂商。1)OpenAI 目前和微软深度 绑定,目前营收仍处于领先地位,主要来自于 GPT 的订阅服务。2)Anthropic 营收构成与OpenAI 差别较大,主要为 API 服务,目前和亚马逊绑定,近一年来市场份额快速增长。3) DeepMind 背靠谷歌,与谷歌工作流进行整合,发力针对中小企业的 API 市场。4)马斯克 带领的 xAI 目前正在迅速发展,近期发布的 Grok3 宣称在基准测试中击败 GPT-4o,潜力巨 大。5)区别于其他厂商,Meta 选择了开源路线,目前尚未通过模型进行商业化,构造围绕 Llama 的开源生态。6)由于目前海外基础模型需要数百亿美元的持续投入,需要厂商本身 较强的资本支撑和与巨头的深度合作带来资源支持,第三梯队的模型厂商已经进入出清时期, 部分被头部模型厂商吸收合并,整体竞争格局已收敛。

(4)国内大模型厂商主要分为四类,分别为互联网云厂商、大模型创业公司、模型推 理平台及技术类厂商,其中互联网云厂商在模型、生态和渠道优势各方面更为全面,具备较 强的竞争力。对于大模型厂商来说,模型能力最为重要,其次是生态能力和渠道能力,国内 互联网云厂商和大模型创业公司均具备较高的模型能力,云厂商的生态能力和渠道能力同样 亮眼,优势更为全面,代表厂商包括阿里、字节、百度、腾讯等。大模型创业公司也拥有优 秀的模型能力,但是生态能力和渠道能力弱于互联网云厂商,代表厂商包括 DeepSeek、月 之暗面、智谱 AI 等。模型推理平台通常不自己研发模型,而是整合开源模型生态,通过 API 盈利,如硅基流动、无问芯穹等。传统的技术类厂商拥有积累的较强的渠道能力,模型和生 态能力也较强,代表厂商如商汤科技、科大讯飞、昆仑万维等。

(5)以阿里为例,其云业务相关营收占比总体营收在逐年提升,体现头部模型厂商在 持续投入资源后,云业务或将成为其新的增长点。2020 年,阿里云营收仅为 555.76 亿元, 到 2024 年,其云业务营收翻倍,达到 1134.96 亿元,在总营收中的占比也从 8.63%上升至 11.56%,未来三年,阿里巴巴在云和 AI 基础设施上的资本开支将达 3800 亿元,体现了头 部云厂商对 AI 相关基础建设的投入信心,AI 业务有望成为头部互联网云厂商营收增长的重 要支撑。

(6)由于通用基础模型领域竞争较为激烈,一方面,国内头部大厂将持续投入通用类 产品,结合渠道实力打造生态壁垒,另一方面,部分模型厂商或将开始聚焦商业化层面,转 型至相对垂直的细分场景进行服务,增强差异化竞争力。国内第一梯队的大模型厂商多数综 合布局,能够承受大量投资和长期亏损的预期,且拥有丰富的消费端场景和自身现有业务产 品背书,因此未来国内通用模型竞争格局同样将收敛至第一梯队的少数玩家。在这样的行业 背景下,模型创业公司或针对 B 端模型客户将聚焦于更加垂直、细分的商业化场景。对于传 统的技术类厂商来说,目前多数在自身已有的渠道中服务,如部分政府和行业大客户,未来 或将尝试将重心转型至大模型。

3.1.GPT 与 o1 验证了训练侧和推理侧算力投入的重要性

(1)OpenAI 是一家致力于推动通用人工智能惠及人类的企业。OpenAI 创立于 2015 年,最早为非营利组织,创始人包括萨姆·奥尔特曼(Sam Altman)、彼得·蒂尔(Peter Thiel)、 里德·霍夫曼(Reid Hoffman)和埃隆·马斯克(Elon Musk)等,其中大多都有丰富的技术和商 业背景,2016 年,OpenAI 发布首个产品 OpenAI Gym 和 Universe,2018 年,GPT 系列 模型首次亮相,采用 Transformer 架构,参数规模达到 1.17 亿,后续该系列模型不断迭代, 参数规模、训练数据、上下文窗口大小呈指数级增长,模型性能相应也有显著提升,此外, GPT 系列模型也从最初单一的文本模态迭代成为 GPT-4 系列的多模态大模型,2025 年, OpenAI 将推出 GPT-4.5 大模型。除 GPT 系列外,OpenAI 还推出了深度推理模型 OpenAI o1、o3 模型,以及文生视频模型 Sora 等。

(2)基于 GPT-3.5 的 ChatGPT 的发布推动了 AI 技术的普及和 AI 产业的变革,是人 工智能的重要里程碑之一。2022 年 11 月 30 日,OpenAI 正式发布聊天机器人 ChatGPT, 基于 GPT-3.5 架构,能够回答问题、创作文章、编程,甚至可以模仿人类的对话风格,颠覆 了人们对于通用大语言模型的认知。ChatGPT 发布后,仅仅用了 2 个月用户数量便达到亿 级,增速超越了 TikTok、Instagram 等全球头部消费级应用。ChatGPT 的发布标志着自然语 言处理(NLP)技术的重大进步,改善了人机交互体验,显著提高了生产力,推动了 AI 行业 变革。

(3)GPT 系列模型着重于预训练阶段的 Scaling law,在预训练阶段投入了大部分算 力资源,在后训练阶段采用 SFT、RFHL 等形式,整体来说更适合解决通识类知识。以 GPT4 为例,其整体参数规模约为 GPT-3 的 10 倍,根据 Semianalyst 的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章中透露,GPT4 在预训练阶段使 用了 25000 张 40G 的英伟达 A100 训练了 90 天以上,总耗费约 6300 万美元,而模型能力 也因此基本来自预训练阶段学习理解的大量多模态信息和知识,所以 GPT 系列模型针对问 题能够迅速反应并给出答案,擅长处理的也基本是通识类的知识。在后训练阶段,GPT 采用 SFT、RFHL(人类提供偏好反馈数据从而训练强化学习的奖励模型)方式,提升模型的实 际应用效果。

(4)Open AI 于 2024 年 9 月发布 OpenAI o1 模型,可以执行复杂的推理任务,MMLU 评分超越一众大模型。o1 模型在回答问题之前会形成一条内部思维链(Chain of Thought), 模拟人类的思考过程,其在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士 生相似,在数学和编码方面表现同样出色。他的 MMLU(知识问答,评估 LLM 的知识和推 理能力)评分、Math(含代数、微积分、几何、概率等多个领域)评分、GPQA Diamond(全 面的框架,测试模型在多种推理场景下的能力)评分均超过了当时的主流大模型,如 Gemini 2.0 Pro Experimental、Hunyuan-TurboS、Claude 3.5 Sonnet 等,对比 GPT-4o 也有显著 提升。

(5)o1 模型的发布证明了推理侧的算力资源投入同样重要,“Scaling Law”在推理阶 段或同样适用。o1 模型引入的思维链类似人类在回答困难问题之前的长时间思考,通过训 练时的强化学习,o1 能够锻炼其思维链并改进其使用的策略,它还能够识别并改正错误, 将棘手的问题拆分成更简单的步骤,如果目前的方式不奏效,o1 还会尝试不同的解决方式。 上述思维链让 o1 的推理能力大幅增强。

(6)未来,GPT 系列与 o1 为代表的深度推理系列模型或将互相补充。相比 GPT-4o, o1 在具有挑战性的推理密集型任务中都有更为出色的表现,GPT 系列类似于思维中的浅层、 快速反应系统,能迅速处理日常生活中的直觉性反应和基础认知任务,有更好的多模态交互 能力,更大的参数规模、更优质的训练数据、优化后的模型架构是 GPT 系列模型的发展方 向。而对于以 o1 为代表的深度推理系列模型来说,类似于思维中的逻辑性系统,更擅长复 杂的分析和经过深思熟虑后的决策提供,需要更多的推理时间和大量的思维链分析过程,后续发展更注重后训练阶段的“思考模式”优化,以及推理阶段更多的算力资源投入。这两类 模型相互补充,GPT 类模型可以作为 o1 类模型的基础模型增强通识,o1 类模型可以为 GPT 类模型生成高质量的推理数据,未来两类模型或共同发展,相互促进。

3.2.DeepSeek 创新性地实现了成本更低的训练

(1)DeepSeek 大模型的发布进一步带动 AI 大模型热潮。DeepSeek,全称杭州深度 求索人工智能基础技术研究有限公司,由量化私募管理机构幻方量化成立,专注于开发先进 的大语言模型和相关技术。DeepSeek 创始人为梁文峰,有丰富的电子信息和人工智能相关 背景。2024 年 12 月 26 日,DeepSeek-V3 发布,训练成本约为 GPT-4o 的 1/10,同时性 能比肩顶尖闭源模型,DeepSeek-R1 于 2024 年 1 月发布,性能对标 OpenAI-o1 正式版。 DeepSeek 的发布挑战了纯算力路径,发布后海内外各大厂商争相本地部署 DeepSeek,云 服务商也相继入局,掀起 AI 云与端热潮,算力芯片、服务器、算力云等产业链有望长期收 益。

(2)DeepSeek 大模型发布后仅用七天用户增长一亿,海内外头部厂商纷纷入场布局。 相比 ChatGPT 先前两个月的记录,DeepSeek 在 DeepSeek-R1 发布后,仅用七天就实现 了用户增长一亿的成绩,远超各大头部 APP。其卓越的性能表现和开源特性,吸引了全球 AI 开发者和海内外头部厂商布局,华为云与硅基流动联合首发并上线基于华为云昇腾云服务的DeepSeek R1/V3 推理服务,腾讯云则将 R1 大模型一键部署至高性能应用服务 HAI 上,开 发者仅需 3 分钟就能接入调用;海外 AI 芯片头部厂商英伟达宣布 DeepSeek-R1 模型登陆 NVIDIA NIM,AMD 宣布已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,针 对 AI 推理进行了优化,云服务龙头亚马逊和微软也纷纷接入 DeepSeek-R1,共同推动 AI 技术的迅速发展和应用普及。

(3)DeepSeek-V3 性能对齐海外领军闭源模型,训练成本和定价却远低于后者。 DeepSeek-V3 于 2024 年 12 月底发布,为开源自研 MoE 模型,共 671B 参数,激活 37B, 在 14.8T token 上进行了预训练。根据测试,DeepSeek-V3 的多项评测成绩超越了 Qwen2.5- 72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。从 API 定价看,DeepSeek-V3 每百万输入 tokens 0.5 元(缓 存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元,远低于其他厂商的头部大模型。从 训练成本看,根据官方的《DeepSeek-V3 Technical Report》,在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 只需要 18 万个 H800 GPU 小时,即在拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,预训练阶段是在不到两个月的时间内完成的,成本为 266.4 万 个 GPU 小时。再加上 11.9 万个 GPU 小时用于扩展上下文长度和 5000 个 GPU 小时的后 训练,DeepSeek-V3 的总训练成本仅为 278.8 万个 GPU 小时。假设 H800 GPU 的租赁价 格为 2 美元/每 GPU 小时,那总训练成本仅为 557.6 万美元(上述成本仅包括 DeepSeekV3 的官方训练,不包括与先前研究、架构、算法、数据和消融实验相关的成本)。与 GPT4 相比,上述成本不到其 1/10,DeepSeek-V3 的发布验证了 AI 大模型低成本训练的商业可 行性。

(4)DeepSeek-V3 创新性的架构特点是通过引入 MLA 实现高效推理,通过 DeepSeekMoE 实现成本更低的训练。 1)多头潜在注意力机制(Multi-Head Latent Attention,MLA)区别于 Transformer 架构的多头注意力(Multi-Head Attention,MHA)机制,显著减少了键-值缓存的内存占 用。MHA 通过计算查询(Query)、键(Key)和值(Value)矩阵之间的关系,使模型能够 关注输入序列中的不同部分。然而,在自回归生成过程中,为了避免重复计算,需要维护一 个键-值(KV)缓存,该缓存存储了所有先前生成令牌的键和值矩阵,同时带来了显著的内 存挑战,制约了模型的实用性。为了解决该类问题,MLA 不直接存储完整的键值矩阵,而是 存储一个维度更小的压缩向量。在需要进行注意力计算时,再通过解压缩重构出所需的键和值。这种压缩-解压缩机制使得模型可以在显著减少内存占用的同时,保持甚至提升性能。 DeepSeek-V2 的技术报告显示,MLA 使 KV 缓存减少了 93.3%,训练成本节省了 42.5%, 生成吞吐量提高了 5.76 倍。 2)DeepSeekMoE 的基本架构建立在 Transformer 框架之上,在前馈网络(FFN)层 引入了创新的 MoE 机制。与传统 MoE 使用较粗粒度的专家划分不同,DeepSeekMoE 采用 了更细粒度的专家划分方式,使每个专家能够负责更具体的任务,从而提高模型的灵活性和 表达能力。具体来说,DeepSeekMoE 的每个 MoE 层由 1 个共享专家和 256 个路由专家组 成,每个 token 会激活 8 个路由专家。这种设计使得模型能够在保持高性能的同时,显著减 少计算资源的消耗。不同于传统 MoE 中专家都是独立的设计,DeepSeekMoE 的共享专家 负责处理所有 token 的通用特征,而路由专家则根据 token 的具体特征进行动态分配。这种 分工不仅减少了模型的冗余、提高了计算效率,还使得模型能够更好地处理不同领域的任务。

(5)DeepSeek-R1 性能对齐 OpenAI-o1 正式版。DeepSeek-R1 于 2025 年 1 月 20 日发布,共 671B 参数,激活参数 37B,在 DeepSeek-V3-Base 基础上训练而来。DeepSeekR1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了 模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

(6)DeepSeek-R1 表明通过强化学习可以直接提升推理能力,能够在不依赖监督微调 的情况下实现强大的推理表现,同时蒸馏技术也能够将大模型的推理能力转移到更小的模型 上,提升它们的表现。 1)DeepSeek-R1-Zero 通过强化学习训练,展现了“自我验证、自我反思”和“生成 长链推理”的能力,DeepSeek-R1 在此基础上做了改进,加入了冷启动数据和多阶段训练 流程,从而进一步提升了推理能力并改善了可读性。过去的大多数模型依靠大量的监督数据 来提升模型性能,但监督数据的搜集耗时耗力,而 DeepSeek-R1-Zero 仅从基础模型开始, 在后训练中通过纯粹的强化学习(RL)过程进行自我进化。为了节省 RL 的训练成本,R1- Zero 采用了组相对策略优化(Group Relative Policy Optimization,GPRO)方法,让模型 针对每个问题生成多个输出,通过比较这些输出的相对表现来调整策略。而在训练时,奖励 模型(Reward Modeling)决定了模型优化的方向。R1-Zero 采用了包括准确性奖励和格式 奖励的基于规则的奖励系统,而没有采用基于神经网络的奖励模型,为了避免出现奖励欺骗 的情况。在自我进化的过程中,随着推理运算时间的增加,模型解决复杂推理任务的能力也 在不断增强,此外还涌现出了“反思”等复杂行为,模型会重新审视和评估自己先前的步骤, 还会自发地探索解决问题的其他方法。R1-Zero 虽然推理能力强,但存在推理过程可读性差、 语言混杂等问题,因此 DeepSeek-R1 在 R1-Zero 的基础上引入了“冷启动”策略和多阶段 训练,冷启动是指先用少量高质量的 CoT 数据对模型进行初步训练,相当于给模型一个“热 身”,目标是让模型既能保持强大的推理能力,又能生成清晰、用户友好的回答。

2)模型蒸馏技术是一种将知识从复杂的大型模型(教师模型)转移到更小、更高效的 模型(学生模型)的方法,旨在保持性能的同时减少计算资源和存储需求。DeepSeek-R1 证 明了较大模型的推理模式可以被蒸馏到较小的模型中,比在小模型上通过 RL 训练的推理模 式表现更好。DeepSeek 利用 DeepSeek-R1 生成的推理数据,对多个稠密模型进行了微调, 结果表明,蒸馏后的小型稠密模型在基准测试中表现非常出色,其中 32B 和 70B 模型在多 项性能上比肩 OpenAI o1-mini。

3.3.AI 大模型产业链半导体相关重点厂商梳理

(1)根据大模型产业链上游涉及到的半导体相关环节,我们将其主要划分为 AI 芯片 (云端与端侧)、存储、光模块、PCB、服务器、电源等几个板块。AI 产业高 速发展离不开 AI 服务器的基础功能,AI 服务器产业链整体包括上中下游,上游硬件部分是 AI 产业构建的基础,核心是 AI 服务器展开的相关零组件,随着 AI 产业的高速发展,上游电 子零部件板块或将也高速增长。

(2)云端 AI 芯片指面向 AI 应用,针对 AI 算法(如深度学习等)进行特殊加速设计的 芯片。AI 芯片是大模型的“大脑”,提供算力支持,主要包括 GPU、FPGA、ASIC 等。国内 相关厂商包括寒武纪、海光信息、龙芯中科等。

(3)端侧 AI 芯片是指应用于 AI 应用,如智能手机、笔记本电脑、智能摄像头等各种 终端设备的芯片,核心特点包括低功耗、高算力、低延迟和高集成度等。端侧 AI 芯片能够 在设备本地完成复杂的 AI 任务,减少数据传输和云端计算的依赖,从而提升设备的智能化 水平和用户体验,国内相关重点厂商包括恒玄科技、乐鑫科技、中科蓝讯、晶晨股份、瑞芯 微、全志科技、炬芯科技、国科微等。

(4)存储包括存储模组和存储芯片,包括 DRAM、NAND FLASH、HBM 等。AI 的发 展由海量数据支撑,对数据处理提出了极高的要求,因而需要更大的内存去存储更多的数据, 国内相关重点厂商包括兆易创新、江波龙、佰维存储、德明利、澜起科技、东芯股份、聚辰 股份、普冉股份、北京君正等。

(5)光模块是进行光电和电光转换的设备,由光电子器件(光发射组件和光接收组件)、 功能电路和光接口等组成。AI 大模型需要云厂商庞大的算力支持,而光通信网络是算力网络 的重要基础和坚实底座。光模块在发送端把电信号转换成光信号,通过光纤传送后,接收端 再将光信号转换成电信号。国内相关重点厂商包括中际旭创、天孚通信(光器件)、新易盛、 光迅科技、源杰科技(光芯片)等。

(6)PCB 作为电子元器件的载体,提供电气互连和信号传输的功能。在 AI 服务器中, PCB 需要处理大量的数据和高速信号传输,还需要承受高负载和高温度环境,确保元器件 的稳定运行,因此对层数、线宽、材料等有更高的要求。国内相关重点厂商包括鹏鼎控股、 胜宏科技、深南电路、沪电股份、东山精密、景旺电子等。

(7)AI 服务器是大模型算力之源,AI 服务器通过集成 GPU、FPGA 等加速器,能够 大幅提升计算速度,满足 AI 模型对大规模数据处理的需求。国内相关重点厂商包括浪潮信 息、工业富联、紫光股份等,服务器其中一个分支是液冷服务器,国内相关厂商包括中石科 技、光迅科技、川环科技、国芯科技等。

(8)服务器电源是一种用于向计算机系统或网络设备供电的设备,将交流电转换为计 算机所需的直流电。随着算力发展与芯片功耗的不断提升,对高功率密度与转化效率的服务 器电源需求增长,国内相关重点厂商包括麦格米特、光宝科技、中国长城、新雷能、欧陆通 等。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

来源:未来智库一点号

相关推荐