摘要:2月初,吉利官宣自研大模型与DeepSeek深度融合,将通过DeepSeek R大模型的顶尖认知能力与吉利全域AI技术体系,重新定义智能汽车的人机交互和智能驾驶。
DeepSeek的闯入,智能驾驶或将酝酿新的变局。
2月初,吉利官宣自研大模型与DeepSeek深度融合,将通过DeepSeek R大模型的顶尖认知能力与吉利全域AI技术体系,重新定义智能汽车的人机交互和智能驾驶。
比亚迪宣布整车智能「璇玑架构」将接入 DeepSeek R1 大模型的能力,以快速提升车端和云端的 AI 能力。
包括在智能驾驶系统中,云端 VLM 大模型利用 DeepSeek 的知识和推理能力,大幅提升自动化数据生成的效率和质量,解决更多长尾场景的瓶颈问题;在车端模型上,利用 DeepSeek 进一步强化知识蒸馏,让视觉语言模型更好地在车端部署运行,做到车端、云端同级智能。
诚然,在DeepSeek的加持下,高阶智驾将加速落地,同时能兼顾低成本和高效率,且在极端驾驶场景下的智驾表现能力更出色,有望缩短车企之间的智驾代差。
某种程度上看,类似于DeepSeek等通用模型赋能智驾,也是车企们不约而同喊出全民智驾的底气之一。
总体上看,DeepSeek带给智能驾驶的影响,主要体现在驾驶体验和成本两个方面的优化。具体将从上游算法、硬件、芯片、推理工程,再到决策规划、感知、测试、仿真数据等等环节赋能。
比如,DeepSeek的部分小模型,如语义分割、目标识别等,可用于优化智驾供应商的现有模型,以达到更精细化、更高效,同时感知任务和运动规划的真实标注成本将显著下降。
知行科技方面表示,DeepSeek绝对利好自动驾驶,在性能表现和算力节约等方面有很大提升,尤其是在极端路况,包括极端场景的城市NOA能力会更加老练,对中等算力平台智驾玩家而言是个好消息。
从技术角度来看,DeepSeek创新性地采用了混合专家架构(MoE),将深度学习模型划分为多个子模块,每个子模块专注于不同任务的处理;通过群组相对策略优化(GRPO),使得各子模块在多任务环境下能够动态调整权重和参数分配,实现更高效的协同工作。
另外,通过引入多头潜在注意力机制(MLA),DeepSeek在捕捉图像细节、多模态信息关联等方面更加敏感,应用至自动驾驶中,可赋能车辆对复杂路况和极端场景更强的适应能力。
据了解,知行科技在测试了325个视频,准确率达到97%(没有DeepSeek是95%),如果全部数据都使用DeepSeek,优化效果更好。
在此背景下,即端到端、大模型技术赋能智驾提升研发效率,DeepSeek等中国技术创新为行业带来“算力通缩”,技术降本潜力巨大。2月12日,知行科技宣布了新一轮超2亿元融资,将高效推进基于AI大模型的智驾研发能力升级。
具体将通过加大对AI算法、大模型、大数据、多模态融合、智能实时决策系统及其他与AI驱动的自动驾驶相关领域的投入,以强化研发和生产制造能力、 吸引高端人才、寻求与领先的AI公司合作的机会以及增强未来的竞争力。
而从实际应用来看,如何通过蒸馏技术,将DeepSeek大模型核心构件重组并压缩为中轻量化模型,部署在车端,将构成智能驾驶公司核心护城河。
DeepSeek 的爆火,为 LLM、VLM/VLA 与自动驾驶行业的融合按下了加速键。魔视智能 MOTOVIS 作为自动驾驶智驾方案供应商,在这一变革浪潮中,对 DeepSeek 和自动驾驶的结合有着深刻的理解与实践。
在数据治理方面,魔视智能 MOTOVIS 已率先运用多模态大语言模型,为数据挖掘赋予了新的活力。借鉴 R1 的强化学习思路,推广到 VLM-R1,同时微调 SFT 专有业务小规模大模型,并引入 TTS 等技术,使得多模态大模型能力得到了全方位提升,不仅在视觉和语言方面表现出色,还扩展到激光点云等领域,极大地提高了数据挖掘标注的效率。
这一创新举措在多模态数据对齐任务、以图搜图、文搜图、图片 / 视频理解、文生图、文本 + 图像编辑、图像仿真变换、真值标签生成以及世界模型生成视频和 3DGS 三维场景等任务上,均取得了显著成效,为自动驾驶的感知层面构建了坚实的数据基础。
在模型创新方面,魔视智能 MOTOVIS 巧妙地结合了端侧的端到端模型与优质的 VLM 底座模型,为其注入了强大的理解能力。在此基础上,叠加 R1-ZERO 强化学习与思考链元素,进一步提升了 VLM 以及 VLA 的泛化性,使模型能够更加灵活地应对复杂多变的路况。
此外,借助 3DGS 技术大规模重建行泊场景,并将强化学习技术应用于这些重建场景中,对端到端模型进行额外的强化训练,从而进一步增强了模型的泛化性和安全性,确保自动驾驶系统在实际道路中能够稳定可靠地运行。
值得一提的是,DeepSeek V3 的混合专家架构(MoE)为车载端侧模型压缩和大模型端侧部署效率的提升提供了新的思路。魔视智能 MOTOVIS 的专利 CN112446439A(深度学习网络动态分支选择)与 DeepSeek V3 的 MoE 理念高度契合,能够有效应用于车载端侧模型压缩,加速大模型在端侧的部署效率。这一技术的应用,将有助于 MOTOVIS 在保持模型性能的同时,降低计算成本,提高模型的部署效率,进一步提升其在自动驾驶领域的竞争力。
魔视智能 MOTOVIS 始终保持敏锐的洞察力与快速的行动力,持续将 DeepSeek 等 AI 领域的前沿成果植入数据积累与模型应用,不断优化智驾方案,致力于为用户的自动驾驶之旅提供更安全、更智能的体验,在自动驾驶行业中展现出独特的魅力与强劲的实力。
基于此,有行业专家表示,使用DeepSeek的强化学习方法,训练集数量级会小很多,可以降低算力需求,算力使用预计能优化20%-30%。
有消息显示,大疆在高通8650平台初步使用DeepSeek模型后,推理响应时间从20ms降至9-10ms,算力利用率从近乎100%降至65%。
这也意味着,DeepSeek城区NOA算力需求,或许有望降低至50-60 Tops,城市NOA方案成本则将降近30%至5000元左右(目前城区NOA算力大致100Tops,成本为7000元左右),可进一步助推智驾普及。
有报道指出,某车企在接入 DeepSeek 并采用国产芯片替代方案后,仅在芯片采购环节,每年成本就降低了约 40%。同时,由于 DeepSeek 对硬件算力需求的降低,车企在数据中心建设与运维方面的投入也大幅减少,预计每年可节省约30% 的相关成本。
除了降本空间继续下探之外,中小算力智驾芯片的生命周期有望被延长,对这部分供应商而言,市场窗口期的关闭速度正在放缓。
而已经具备高性价比、高性能芯片量产能力的本土厂商,比如地平线、黑芝麻、爱芯元智等,抢跑DeepSeek智驾芯片市场机会非常明显。
比如,黑芝麻专为多域融合、舱驾一体应用场景推出的高性能计算平台武当C1200家族芯片,已经完成DeepSeek模型部署。另外,其华山A2000也将全面支持基于DeepSeek的多模态大模型。
接下来黑芝麻还将利用高性能芯片的算力优势,探索DeepSeek在智驾领域的落地方向和应用场景。例如,更少的训练成本、更强的逻辑推理能力等。
不过,业内普遍认为,智能驾驶融合DeepSeek,功能下限仍然是现实挑战。
毕竟,由于信息输入源和应用场景有较大差异,DeepSeek等通用模型在智驾领域的应用,并非直接接入上车就能完成。
如何在最高功能安全等级ASIL-D标准、低时延等要求下,安全稳定地实现知识的蒸馏、跨任务的泛化等,都是摆在业界面前的难题,因此DeepSeek智驾实际上车可能还需要较长的训练时间。
而从现阶段智驾供应商对DeepSeek的态度来看,由于各自的技术路线、架构选择、技术理解和迭代路线不同,利用DeepSeek侧重解决的问题也呈现出差异化。
比如,在端到端技术路线上积累较多的玩家,正基于强化学习训练更好的感知、决策模型;以小模块为主的公司,则将DeepSeek放在模块中做架构整合;致力于实现决策和感知一段式端到端的供应商,可能下一步将整合上游V2X。
以端到端为例,自2024年以来,多家智驾Tier 1宣布端到端技术路线,通过海量的高质量人类驾驶数据,实现最佳的学习模仿驾驶效果。瓶颈在于,基于模仿学习的技术范式,难以突破人类能力上限,加上高质量数据稀缺,也令端到端智驾的竞争更聚焦算力、数据。
因此,DeepSeek基于纯强化学习,赋能大模型自行涌现出长思维链能力,提升推理效果,或能突破端到端的上述难题。并且通过少量高质量数据的冷启动,模型进行多阶段的强化学习训练,降低大模型训练的数据规模门槛,有望弥补部分端到端的数据需求缺口。
比如,近期商汤科技发布的行业首个「与世界模型协同交互的端到端自动驾驶路线 R-UniAD」,通过构建世界模型生成在线交互的仿真环境,进行端到端模型的强化学习训练。
据商汤科技测算,小样本多阶段学习的技术路线,能让端到端自动驾驶的数据需求降低一个数量级。但具体会下降多少,目前尚未有比较明确的答案。
DeepSeek赋能智驾究竟是“噱头”还是“降本利器”?有待更多实践检验。
来源:高工智能汽车V