云计算行业分析:从AI大模型及智驾算力需求测算,看小米算力需求

B站影视 电影资讯 2025-10-28 10:27 1

摘要:小米加大AI硬核投入。2月27日小米15 Ultra发布会上雷军表示,小米2025年研发费 用将超300亿元,其中1/4用于AI相关领域,重点聚焦AI基础设施、大模型开发及应 用场景搭建。5月22日小米15周年战略新品发布会雷军表示,2021年~2025年的5

小米加大AI硬核投入。2月27日小米15 Ultra发布会上雷军表示,小米2025年研发费 用将超300亿元,其中1/4用于AI相关领域,重点聚焦AI基础设施、大模型开发及应 用场景搭建。5月22日小米15周年战略新品发布会雷军表示,2021年~2025年的5年 研发投入预计超1,000亿元人民币,未来五年(2026-2030年)研发投入将超2,000 亿元,主要聚焦于AI、OS、芯片三大底层技术的研发。

(一)小米 AI 技术及应用发展历程

小米自2016年起正式成立AI视觉团队,逐步拓展人工智能领域布局,已覆盖视觉、 声学、语音、NLP、知识图谱、机器学习、大模型、多模态方向,并逐步接入手机、 汽车、AIoT、机器人等业务板块。

公司AI技术发展经历4个阶段:

技术孕育与体系奠基(2016年7月-2017年9月):本阶段是小米系统性构建人工智 能技术体系的战略起点,以核心团队组建与基础能力验证为主要特征。2016年7月, 公司率先成立AI视觉团队,赋能手机智能拍照,首次将深度学习技术应用于移动终 端拍照场景。2017年3月,推出小爱同学前身,面向电视终端的"Mi Brain"语音交互 系统,初步验证语音技术在家庭场景的可行性。2017年7月,正式发布小米AI音箱, 成为公司首款具备自然语言处理能力的消费级AI硬件产品。

方向完善与全面自研(2017年9月-2021年3月):本阶段以系统性技术布局和跨领 域能力整合为核心特征。2017年9月,小米AI实验室正式成立,首次将视觉、语音、 声学、智能问答方向纳入统一研发框架,并同步构建MACE移动端推理引擎、 CloudML云端训练平台及MiNLP自然语言处理平台,奠定技术工程化基础。2018年 3月推出小米MIX2S AI场景相机,实现206种复杂场景的端侧识别能力,并完成小爱 同学在手机端的落地。2019年,技术成果加速向产品端渗透:9月小爱音箱Pro发布, 应用小米全自研语音技术;11月旗舰手机小米CC9 Pro登顶DxOMark评测榜首,搭 载自研影像算法;首款概念机小米MIX Alpha集成全自研语音交互系统,实现AI能力 与硬件设计的深度耦合。

AI技术全面赋能(2021年3月-2024年7月):本阶段聚焦“人车家全生态”战略落地与 大模型技术突破。2021年3月小米宣布进军智能电动汽车领域并组建辅助驾驶研发 团队;8月发布CyberDog仿生四足机器人并设立机器人实验室。2023年3月,小米 成立大模型专职团队;8月正式发布轻量化自研大模型MiLM,以“端侧部署、隐私优 先”为核心突破方向,在C-EVAL中文权威评测中斩获同参数量级第一。技术应用呈 现跨领域规模化:2023年AI视觉系统完成三次密集迭代,强化多终端协同能力。2024 年3月小米汽车上市,实现大模型技术与智能座舱的首次车载集成,AI与大模型正式 上车。

AI硬核科技投入(2024年7月至今):本阶段注重底层技术突破。小米于2024年7 月开启更大规模投入AI硬核科技研发,并将2025年研发费用的1/4(约75亿元)投入 AI领域。智驾方面,24年底汽车辅助驾驶端到端系统完成"先锋版"功能推送。成立 小米大模型Core团队,开始基础大模型研发,于25年4月正式发布首个开源推理大 模型MiMo-7B,5月发布多模态开源模型MiMo-VL-7B,具备超越当前主流7B~32B 的开源多模态模型的能力。

(二)AI 基础大模型、智驾均需要大量算力

小米早期模型主要方向为轻量化本地化小模型。2023年4月小米AI实验室大模型团 队正式组建,主力突破方向为自研大模型的轻量化与本地部署,继小爱同学、自动 驾驶等团队持续拓展AI领域。根据小米技术官微,2023年8月,小米首次发布自研大 模型并跑通端侧,成为业界首个在手机芯片NPU上跑通十亿参数规模大语言模型, 验证端侧小模型在部分目标场景可以取得媲美云端大模型的效果。2024年11月,小 米第二代MiLM2模型发布,在性能与技术上较第一代显著提升,实现云边端结合模 型矩阵拓展赋能“人车家全生态”战略,并在小米澎湃OS、小爱同学、智能座舱、智 能客服中开始应用落地。端侧与云侧方面,分别实现4B模型落地、30B模型部署。

24年底开始重点自研基础大模型,加大AI硬核投入。24年底至25年初,小米大模型 Core团队成立,主攻基础大模型。根据小米MiMo公众号,25年4月,小米首个推理 大模型MiMo-7B发布并开源,通过联动预训练到后训练,在数学推理和代码竞赛方 面 , 已 追 上 OpenAI 的 闭 源 推 理 模 型 o1-mini 和阿里 Qwen 的 开 源 推 理 模 型 QwQ-32B-Preview;在相同RL训练数据情况下,MiMo-7B 的数学&代码领域的强化学习潜力领先。5月,小米发布多模态大模型MiMo-VL,得益于高质量的预训练数据 以及创新的混合在线强化学习算法,MiMo-VL在保持MiMo纯文本推理能力的同时, 在多模态推理任务上,仅用7B参数规模,在奥林匹克竞赛OlympiadBench、多个数 学竞赛(MathVision、MathVerse)超过参数量更大的阿里Qwen-2.5-VL-72B和 QVQ-72B-Preview,也超越闭源模型GPT-4o。

坚持智能驾驶全栈自研,投入持续加大。小米从2023年底开始全面布局自动驾驶技 术,采用全栈自研模式,覆盖底层算法、传感器融合、高精度地图和大模型应用。 2024年智驾团队陆续推出高速NOA(Navigate on Autopilot)、城区NOA、无图城 区NOA和最新的端到端全场景智能驾驶(HAD)多个版本功能。根据小米投资者日雷 军表示,25年小米智能驾驶部的研发预算约35亿元人民币,主要投向自动驾驶、智能座舱等。 自研智能驾驶大模型(如端到端模型)需要海量算力支持。根据25年2月小米双Ultra 发布会,小米已拥有最高11.45EFLOPS(1.145×1019次浮点运算/秒)可用于智能驾 驶训练的超大算力。万卡GPU集群将进一步提升算力规模,以加速模型迭代和复杂 场景仿真。小米智能驾驶模型训练依赖海量数据,24年11月向定向用户内测的端到 端模型,均应用了300万CLIPS的数据,24年底训练数据量提升至超800万CLIPS, 截至25年2月提升到1360万CLIPS,数据量的增长直接推高算力需求。小米端到端 智驾系统(HAD)通过一体化模型整合感知、规划与控制,需高算力支持模型的高 效运行。 小米汽车生产和交付能力快速提升,25年目标销量上调至35万辆。小米首款汽车 SU7于2024年3月正式上市,2024年累计交付13.5万辆,超过10万台的年度目标。 2025年3月18日,雷军通过个人微博宣布,将全年交付目标从30万辆上调至35万辆, 并透露截至当时累计交付量已突破20万辆。25年6月首款SUV小米YU7上市后仅18 小时内锁单量达24万台,刷新国产汽车订单纪录。随着SUV车型量产交付及产能释 放,小米将加速进入主流智能电动汽车市场核心阵营。根据中汽数研数据,2025年 9月,小米汽车月销量超4万辆,1~9月累计销量超25万辆,位居国内新能源新势力 乘用车销量Top5。

(三)从训练到推理,小米 AI 应用场景广泛

小米应用生态持续扩大,从硬件到软件到生态,截至25Q2手机及平板月活用户近7.3 亿,AIoT连接设备数(不含手机、平板、电脑)近10亿,小爱同学月活1.53亿,小 米汽车25年出货量目标35万辆。 25Q2小米手机和平板的全球月活跃用户数达到7.31亿,同比增长8.2%。小米智能手 机24年出货量1.7亿台,位居全球前3,25Q2市占率升至14.7%。智能手机和平板设 备与AIoT产品深度融合,逐步成为智能家居的核心控制设备,通过小米的MIUI操作 系统和米家App,控制各类智能设备,远程操作、自动化场景设置。此外,米家App通过AI个性化控制中心优化家庭管理,25Q2米家月活跃用户数达1.13亿,同比增长 16.7%,整体AI集成助力用户体验持续升级。 小米AIoT产品涉及领域广泛,包括智能家居、可穿戴设备、智能家电等多个方向, 整体生态覆盖智能家居设备与传感器网络。25Q2小米AIoT连接设备数增长至9.89亿, 同比增长20.3%。 作为小米生态的AI交互中枢,小爱同学25Q2月活跃用户达1.53亿,同比增长16.3%。 通过大模型加持,小爱同学处理复杂和长尾问题能力提升,通过优化算法和蒸馏模 型,大模型小爱同学能够应用在多个智能终端设备上。在生态落地层面,小爱同学 已深度融入家庭、出行场景:与智能家居生态相连,控制各种智能设备;在小米SU7 等车型中实现多模态车控,提供沉浸式座舱体验,并能融合车辆状态提供实时驾驶 建议等,从语音助手进化为全场景智能生态的核心入口。 25年6月26日,小米发布旗下首款AI眼镜,称其是“面向下一个时代的个人智能设备” 和“随身AI入口”。小米AI Glasses深度融合AI技术,实现了多场景的智能化交互和功 能创新,包括实时AI视觉识别与问答、第一人称视角智能拍摄、语音智能设备控制、 自适应环境交互等。小米AI眼镜的AI属性并非单一功能,而是通过“视觉+语音+环境 感知”的多模态交互,将AI深度嵌入日常场景,做到实用化落地。

(一)AI 大模型训练算力需求测算

近年来,全球范围内AI大模型的研发热度持续攀升,从早期的Transformer和BERT 模型到如今的GPT-4、Gemini、LLaMA等,各主流厂商在模型规模、训练数据体量 与算力资源的投入上均呈现指数级增长。以Open AI的GPT系列为例,GPT-3训练参 数量达1750亿,使用约355个GPU-年,训练成本达1200万美元;GPT-4在硬件规模 和训练时长上双双大幅跃升,动用约2.5万块A100 GPU训练近百天,整体投入超过1 亿美元。 国内如百度、阿里、商汤等头部厂商亦加快布局,LLaMA-3.1、Deepseek-V3等模 型虽参数量略小于GPT-4,但在算力利用效率及成本控制方面表现出更强的工程优 化能力,如Deepseek-V3使用2048块H800 GPU训练56天,总成本控制在600万美 元以内,为国内厂商在芯片受限背景下,实现AI加速卡高利用率、训练整体高性价 比提供可能性。

AI大模型训练驱动算力需求增长,国外厂商定制AI芯片采购量占比高。英伟达 Hopper架构是2022年推出的最新一代高性能计算、深度学习和人工智能应用的计算 架构。它继承了前代架构(Ampere)的优点,并在多个方面进行了优化,旨在提供 更高的计算效率和灵活性。Hopper架构的显卡型号包括H100、H200、H800和H20, 其中H800和H20是针对中国市场的定制版本。 根据Omdia报告数据,2024年英伟达Hooper架构芯片出货客户中,微软以48.5万张 的采购数位于首位,Meta、特斯拉、亚马逊和谷歌的采购量分别达到22.4万/20万 /19.6万/16.9万张;字节跳动和腾讯均达到约23万张,阿里巴巴和百度也分别达到5.8 万/2万张,包括训练卡和推理卡,数量上H20占多数。整体来看,Hopper架构芯片 的出货量集中于头部企业,中美科技公司均将Hopper架构芯片作为生成式AI基础设 施的关键算力支撑,但部分公司已通过自研芯片或AMD替代方案降低对单一架构的 依赖。考虑单芯片算力差距等因素,国内外厂商AI训练的算力储备仍存在不小的差距。

敏感性分析:基于以下假设条件,我们通过改变参数量-数据量之比,对用于AI大模 型训练需求的AI加速卡的数量做关于参数量和训练token数量的敏感性分析,得到的 结果如表3所示。 (1)参数量取200~1400B之间,每200B为一个间隔。 (2)数据量取4000~24000B tokens之间,每4000B tokens为一个间隔。 (3)AI加速卡使用Hopper架构下的H100芯片(FP16:1,979TFLOPS,50%), 正常训练时单卡算力取1000TFLOPS。 (4)训练周期为60天。

国内AI算力不足的情况下,国内大模型公司通过算法迭代、架构升级等方式降低训 练成本。 Deepseek-V3的训练规模为参数量672B、训练数据14.8T tokens,其训练56天仅需 2,048张H800 GPU,预训练成本约557.6万美元。而根据前文的计算方法大约需要 1.25万张H100 GPU(H800与H100算力相当)。 根据Deepseek-V3 Github官方主页,其高效性主要得益于多项技术创新。具体而言, Deepseek在预训练中设计并首次在超大规模模型上验证了FP8混合精度训练框架 的可行性和有效性,突破了跨节点MoE训练的通信瓶颈,近乎实现计算-通信的完全 重叠,显著提升了训练的效率及成本效益。参考Deepseek的模型训练属性,表明AI 大模型训练端成本依旧存在巨大的优化潜力,尤其在训练架构及算法层面上能够借 鉴Deepseek的技术路径或持续创新。

(二)AI 大模型推理算力需求测算

用户与基于云端的AI大模型交互驱动AI推理侧算力的增长。为测算AI大模型访问量 给厂商带来新增的算力需求,我们进行以下假设: (1)AI加速卡使用A100(FP16:312TFLOPS,50%)芯片来测算。 (2)AI大模型的单日访问量为5亿至7亿人次之间。 (3)每日每位访问AI大模型的用户的对话次数为10次:根据SimilarWeb的数据, 25年1月27日-2月2日,DeepSeek网页版访问的平均时长为5分钟。通过观察,在5 分钟内,用户平均对话问题在10个左右。 (4)AI大模型每日正常使用时间为18小时:AI大模型的推理与用户与其对话的时间 相关。正常情况下,用户在晚间睡眠时间(24:00-6:00)与AI大模型的互动较少。 (5)单位AI加速卡每秒生成内容数量为1个:根据英伟达官网,A100针对于BERT类的AI大模型可实现每秒推理1757次。因此可假设单片A100用于AI大模型每秒生成 1757个单词,与单次客户需要生成的内容数量相当。 由此测算出,在以上假设下,由于用户对话和访问AI大模型的推理量的增加,预计 AI加速卡需求在7.7万~10.8万张之间。

敏感性分析:以上测算中,单日对话次数和单日访问量对于算力需求的影响较大。 为进一步细化算力需求的测算,我们预计AI大模型的单日访问量的范围在5亿人次到 9亿人次之间;用户与AI大模型单日的对话次数预计在7-13次之间,其余假设与上述 测算相同,对用于AI大模型推理新增的AI加速卡的数量做关于单日对话次数和单日 访问量的敏感性分析。

(一)智能驾驶技术迭代深化,云-车端算力成核心支撑

智能驾驶系统由车端传感器、车端平台层、车端算法层、云端服务层四大部分组成, 车端平台层以芯片、域控制器、车载通信和操作系统等驱动摄像头、激光雷达、毫 米波雷达等传感器进行环境感知,并通过车载通信实现车云协同;车端算法层整合 管理域、算法、应用及安全域,实时解析传感器数据生成决策指令;云端提供全导 航、数据管理和模型训练等功能,通过 OTA 向车端推送更新。系统通过“传感器 数据反馈、车端实时推理、云端模型训练”闭环,实现环境感知、动态决策与精准 执行的全链路智能化驾驶。

智能驾驶主要涉及两方面算力:云端训练算力和车端部署算力。云端算力主要部署 于大型数据中心,以EFLOPS为衡量单位,专注于海量数据处理、复杂多模态模型 训练与算法迭代。车端算力嵌入车辆本地硬件,以TOPS(每秒万亿次操作)为单位 (1EFLOPS≈10^6TOPS),负责低延迟的实时环境感知与驾驶决策。二者协同构 成智能驾驶的“云-车”架构:云端负责复杂模型的训练和迭代,经压缩蒸馏实现轻量 化后部署至车端;车端负责智能驾驶的实时推理和决策,并在执行中收集的新数据 回传云端,驱动模型持续迭代,形成持续升级的闭环。

各大厂商持续加码智能驾驶领域,云端算力储备扩张不断提速。其中,特斯拉在算 力储备方面遥遥领先,国内车厂则在智能驾驶的训练算力和数据积累上仍具备较大 发展潜力。 从技术发展路径与算法演进来看,根据2025年电动汽车百人会论坛,中国电动汽车 百人会副理事长、中国科学院院士欧阳明高提到,智能驾驶的发展大致可总结为四 阶 段 : BEV+Transformer 、 基 于 大 模 型 的 端 到 端 、 端 到 端 +VLM 、 Vision-Language-Action(VLA)闭环。根据行业最新发展, (1)BEV+Transformer:通过鸟瞰视图(BEV),感知融合从数据特征级的后融 合阶段推进至信号级的前融合阶段,能够提供更全面、更准确的环境感知能力,目 前的城市NOA配备。 (2)基于大模型的端到端:从基于规则的模块式架构(感知-规划-控制)到基于大 模型“输入输出式”端到端;从两段式端到端(感知端到端+规控端到端;分段式)到 一段式端到端(两者合一、全局式)。 (3)端到端+VLM:视觉-语言模型(VLM)将视觉与语言两种模态深度融合,赋予 系统理解图像、视频等视觉信息,并关联自然语言语义的能力,利用语言模型知识 库辅助决策,赋予系统理解图像、视频等视觉信息,并关联自然语言语义的能力。 在智能驾驶中,它能识别道路上的交通标志与复杂路况图像,同时理解相关的语言 指令或描述。端到端和VLM模型可理解为相互独立的两个系统,后续经过融合实现 对车辆的控制。 (4)VLA(Vision-Language-Action视觉-语言-动作模型)闭环:构成视觉感知语言理解与生成-动作决策与控制一体化闭环智能体。

两段式端到端将自动驾驶任务拆分为感知和规控两个相对独立的阶段,模块化设计, 感知模型处理摄像头、雷达等原始数据,生成对环境的结构化理解,例如识别出车 辆、行人、车道线,并生成鸟瞰图(BEV)等中间表征,然后将这些清晰的环境信 息传递给另一个规划与控制模型,由它来做出具体的驾驶决策,如转向、加速、刹 车。两段式端到端主要优势在于模块化,某个模块需要升级或修复时,可以独立进 行,不影响整体,缺点是可能存在信息损失,整体优化程度不及一段式端到端架构, 在面对极端复杂场景时,可能因模块协同不够流畅而出现决策迟疑情况。 一段式端到端是用一个统一的模型,从传感器信号直接映射到控制信号。一段式端 到端最大的优势是高效和强大的泛化能力,模型从海量人类驾驶数据中直接学习“输 入-输出”的映射关系,挑战在于很难理解模型内部的决策逻辑,调试和验证的难度很 大,同时,训练如此庞大的模型需要消耗大量的数据和算力资源,门槛高。 各家车企自研智驾功能进展来看,特斯拉引领技术路径进阶,国内车企快速追赶。 2021年7月,特斯拉率先实现 BEV+Transformer 技术,在2022年8月成功推出占用 网络,并于2023年12月实现一体化端到端技术突破,于24年初在北美推出的FSD V12(Full Self-Driving)版本,率先实现“一段式”端到端神经网络算法,24年底推出的 FSD V13版本基于AI on Vision的视觉感知系统实现近乎人类水平的驾驶判断,体现 出其在智能驾驶领域的核心技术优势。

国内车企在智驾算法能力上快速追赶,华为于2022年5月实现 BEV+Transformer, 2023年4月引入占用网络,2024年8月推出分段式端到端技术,其一体式端到端技术 正在预研中,有望于2025年量产。理想在2022年6月实现 BEV+Transformer,2023 年4月应用占用网络,同年6月推出分段式端到端技术,2024年7月推出VLM模型。 小鹏则在 2022年9月达成 BEV+Transformer,2023年10月实现占用网络,2024年 5月推出分段式端到端技术,其一体式端到端技术正在预研中。其余车企也在快速迭 代过程中。

智能驾驶技术的推进,不仅是技术和算法层面的突破,也是对算力资源的全新需求。 技术发展和算法演进与算力的需求增长密不可分。一方面,智能驾驶技术的不断升 级对算力提出更高的要求;另一方面,汽车数据的爆炸性增长也需要强大的计算能 力来处理和分析。这种需求不仅体现在车辆本身,也涵盖整个产业链的各个环节, 从研发设计到销售服务,从云端到车端,每个环节都需要强大的算力支持。

(二)各车企智能驾驶算力布局

Clips是记录驾驶行为的视频片段,其中包含由激光雷达、摄像头、毫米波雷达等多 种传感器同步记录的多模态数据,长度一般为 30 秒至 1 分钟。Clips是端到端大 模型的训练素材,数据量越大、数据质量越高,控车越自然流畅。 在智能驾驶的云端训练数据方面,特斯拉凭借FSD V13的端到端架构和超4000万 Clips(截至24年12月)的海量训练数据,在技术成熟度与商业化进程上保持全球领 先。国内车企目前仍处于从L2+向L3级端到端技术攻坚的关键阶段。小鹏训练数据 量超2000万Clips(截至25年4月),华为、小米、理想等车企数据量突破1000万Clips, 但整体数据量与场景覆盖深度仍与特斯拉存在差距。算力储备方面,特斯拉依托自 研+外购的庞大算力(67.5EFLOPS,截至24年9月)构建壁垒,国内车企如小米 (11.45EFLOPS,截止25年2月)、华为(>10EFLOPS,截至24年12月)、理想 (8.1EFLOPS,截至24年12月)等加速追赶。(注:特斯拉数据来自业绩会和《马 斯克传》,华为数据来自华为智能汽车解决方案BU,小米数据来自小米汽车发布会 &官网,理想数据来自官方微信公众号&官网,小鹏数据来自官方微信公众号&官网) 未来模型参数量及训练数据量方面,中国工程院院士邬贺铨指出,5 级智能驾驶需 要处理高达 8000 亿参数的模型,训练数据量达到 1 亿EB。特斯拉创始人兼首席 执行官马斯克曾表示,特斯拉 FSD 测试里程需要达到 60 亿英里,才能满足全球 监管机构的要求,这也是智能驾驶系统实现质变的一个重要节点。

小米:新势力黑马,算力与销量同步跃升

云端训练算力层面,根据小米汽车微信公众号,24年11月小米已拥有最高8.1E FLOPS可用于智能驾驶训练的超大算力。根据25年2月小米双Ultra发布会,智能驾 驶总算力达到11.45EFLOPS;训练数据量方面,根据2025年3月小米汽车自动驾驶 与机器人部的专家工程师杨奎元在GTC大会上的发言,在24年9月采用端到端模型 训练时,小米使用了238万CLIPS,经过4个月的积累,训练数据已经增加到1360万 CLIPS,进入智能驾驶第一梯队。

车端部署算力层面,目前,小米汽车的智能驾驶系统主要由小米自研,并在硬件供 应链上与多家行业领先企业合作。根据小米汽车官微,小米智驾以VLM视觉语言大 模型为底座,Xiaomi HAD全面接入小米端到端大模型,上限大幅度提高的同时下限 有保障。2025年6月26日,小米首款SUV车型“小米YU7”发布,新车全系搭载 700TOPS算力的NVIDIA Thor™芯片和1000万CLIPS的端到端辅助驾驶功能。此外, 小米YU7的“英伟达+自研米芯”的双芯架构采用“通用芯片铺算力、专用芯片提效率” 的异构算力设计,显著提升YU7的算力利用率。

特斯拉:自研加外购,算力储备和数据积累全球领先

云端训练算力层面,公司通过自研Dojo超算集群+大规模采购英伟达GPU构建混合 算力体系。根据25年3月特斯拉全体员工大会,公司自研Dojo D1芯片集群的超级计 算机已在纽约超级工厂运行,承担公司5%~10%的智能辅助驾驶训练数据量。第二 代Dojo性能将较第一代提升10倍,承担更多自动驾驶训练任务。根据IT之家引用的 前Dojo通信协议TTPoE负责人Eric Quinnell在离职邮件中披露,截至24年10月,Dojo 集群的算力是15EFLOPS。 根据特斯拉24Q3业绩会,公司外购AI训练芯片储备从2023年9月不过万张提升至等 效6.75万张H100芯片,总算力规模达67.5EFLOPS,同比增长超6倍。预计2024年10月底还将新增2.1万张H100,届时外购芯片的算力将达到88.5EFLOPS。 根据25年3月马斯克在全体员工大会上的发言,特斯拉正在大量建设算力中心,其用 于训练智能辅助驾驶的Cortex算力中心已部署超过5万块GPU,即将扩展至10万块 级别,跻身全球排名前五的超级计算中心。马斯克曾在社交媒体透露,这10万块GPU 均是英伟达的H100和H200芯片。 训练数据量方面,根据《马斯克传》,2023年训练V12初期所用的高质量训练数据 储备已达1000万CLIPS,而24年底FSD V13上线,配备原生Al4输入和全新的神经网 络架构,数据规模扩大4.2倍,达到4200万CLIPS。 车端部署算力层面,公司自研的HW系列FSD平台已经演进三代,单芯片算力从HW3 的144TOPS到目前量产的HW4的500-720TOPS。25年6月18日,据NotATeslaApp 报道,特斯拉正在准备量产下一代FSD平台AI5(HW5),其算力达2000-2500TOPS, 标志着特斯拉在自动驾驶硬件领域迈入全新阶段。25年6月28日,第一辆完全自动 驾驶的特斯拉Model Y从工厂开到客户家完成交付,整个过程包括高速公路行驶在内 的跨城镇运输,全程实现无人驾驶。

华为:全栈自研赋能,昇腾生态驱动智驾发展

华为2012年成立智能汽车解决方案部门,目前已构建全栈自动驾驶解决方案,覆盖 底层传感器、芯片,到操作系统、算法,再到云端服务的各个层面。 云端训练算力层面,25年4月10日华为云生态大会上,华为昇腾云首席解决方案架 构师提到,昇腾云算力底座依托十万卡集群及“3+N”布局,支持智驾大模型周级迭代 与PB级海量数据吞吐。24年11月19日中国5G+工业互联网大会上,华为智能汽车解 决方案BU产业总监沈瑞采访表示,截至2024年9月,华为云端的智能驾驶算力达到 7.5EFLOPS,日行训练数据量超3500万公里,模型迭代周期保持在5天以内;25年 1月,华为发布《华为乾崑2024年智驾使用报告》,据华为智能汽车解决方案BU CEO 靳玉志介绍,华为用于投入智驾的云端算力在24年底已超10EFLOPS。 车端部署算力层面,华为自研MDC(Mobile Data Center)平台定位为智能驾驶计 算平台,支持L2+到L5平滑演进。智驾AI芯片如昇腾310(16TOPS)和昇腾610(INT8: 160TOPS、FP16:100TFLOPS),充分兼顾性能与功耗。

理想:算力投入对标头部

云端训练算力层面,从24年7月份的2.4 EFLOPS提升至24年12月的8.1EFLOPS, 根据2024成都国际汽车展览会,理想汽车智能驾驶研发副总裁郎咸朋表示,理想汽 车每年在训练算力的投入超过10亿人民币。公司认为“最终实现自动驾驶需要的训练 算力要达到100EFLOPS的量级,折合成投入每年要超过10亿美金”。25年3月,理想 推出AD Max V13大模型,训练数据量达到1000万CLIPS。 车端部署算力层面,25年5月8日理想L系列智能焕新版发布会上,公司宣布AD Pro 辅助驾驶平台搭载新一代地平线征程®6M芯片,拥有128TOPS的算力,而AD Max高级辅助驾驶平台搭载NVIDIA Thor-U芯片,成为全球首个大规模量产交付NVIDIA Thor-U芯片的高级辅助驾驶平台,拥有700TOPS的算力。

小鹏:技术激进派,数据规模领跑国内

云端训练算力层面,根据25年4月14日小鹏AI技术分享会,公司宣称从2024年开始 搭建AI基础设施,已建立万卡规模的智能算力集群,算力储备达到10EFLOPS。小 鹏世界基座模型负责人刘先明介绍,小鹏自主开发了底层的数据基础设施,使数据 上传规模提升22倍、训练中的数据带宽提升15倍;通过联合优化GPU/CPU以及网 络I/O,最终使模型训练速度提升了5倍。25年4月小鹏汽车用于训练基座模型的视频 数据量达2000万CLIPS,25年底将增加到2亿CLIPS。 车端部署算力层面,根据公司官网及官方公众号,25年7月小鹏G7上市,首次搭载 其自研的图灵AI芯片和全本地端VLA+VLM模型,单颗图灵AI芯片算力高达 750TOPS,超越特斯拉HW4的720TOPS,可实现毫秒级多传感器数据处理;小鹏 G7搭载了3颗图灵AI芯片,有效算力超2200TOPS。

(三)智能驾驶训练算力需求测算

小米于2021年官宣造车领域后开始对智能驾驶研发投入,至2025年2月26日正式推 出小米全场景智能驾驶Xiaomi HAD,经约4年时间。根据小米汽车官微,小米在智 驾方面掌握变焦BEV技术、超分辨率OCC技术以及感知决策一体模型等核心关键技 术,可推测小米在训练中需要的参数量和token量系较高水平。 参考Google Research于2023年发布的论文《PaLI-X: On Scaling up a Multilingual Vision and Language Model》中,可推导出公式:token数=视频时长×帧率×每帧 生成token数,并基于此公式提出以下假设: (1)训练数据单位:Clips是端到端模型的训练素材,记录了驾驶行为的视频片段, 其中包含由激光雷达、摄像头、毫米波雷达等多种传感器同步记录的多模态数据, 长度一般为 30 秒至 1 分钟。 (2)帧率:根据英伟达的研究论文《End to End Learning for Self-Driving Cars》, 指出自动驾驶系统通常以30帧/秒的速率处理视频数据,我们采取该值进行测算估 计。 (3)每帧生成的token数:参考PaLM-E、VIOLET、BEV等已有多模态模型特性, 并考虑小米掌握变焦BEV技术、超分辨率OCC技术以及感知决策一体模型等技术, 我们估计每帧token数为1800个。 基于以上假设,1360万Clips对应训练数据量约为2.2032×1013token(22,032Btoken)。与前文相同,根据Chinchilla定律(DeepMind, 2022),每个参数需要大 约20个文本token进行训练。根据OpenAI《Scaling Laws for Neural Language Models》(2020)提出的“Chinchilla 缩放定律”算力需求公式,对GPU需求进行测 算。其中,单张GPU算力及利用率主要采用英伟达H100(FP16:1.979TFLOPS, 50%)来衡量。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

来源:未来智库

相关推荐