专攻长尾场景!同济CoReVLA:双阶段端到端新框架

B站影视 欧美电影 2025-09-25 17:54 1

摘要:自动驾驶技术在长尾场景(低频率、高风险的安全关键场景)中表现仍存在显著短板——这类场景虽不常见,却占自动驾驶事故的很大比例,且会导致驾驶员接管率急剧上升。

自动驾驶技术在长尾场景(低频率、高风险的安全关键场景) 中表现仍存在显著短板——这类场景虽不常见,却占自动驾驶事故的很大比例,且会导致驾驶员接管率急剧上升。

传统模块化自动驾驶系统(感知-预测-规划分阶段)存在“误差累积”问题:各阶段的微小误差会逐步放大,导致整体性能难以提升;而端到端方法直接将传感器输入映射为控制动作或者自车的轨迹,具备更强的适应性和统一优化能力,被认为是解决长尾场景问题的潜在方向。

而当前端到端方法主要分为两类,但均无法很好应对长尾场景:

小规模任务特定模型:将原始传感器数据转化为BEV地图、交互图等结构化中间表示,通过多任务学习联合优化感知、预测、规划。这类模型在常规场景表现稳定,但上下文推理能力弱、对未见过的场景泛化差,难以处理长尾场景中的复杂交互(如突发遮挡、模糊意图)。大规模预训练模型(如VLM):依托海量世界知识和强推理能力,衍生出“视觉-语言-动作(VLA)”框架——模仿人类从场景理解到决策的流程,在模糊或罕见场景中展现出更强的可解释性。但VLA面临两大核心挑战:一是长尾QA数据稀缺,多数公开数据集聚焦轨迹标注,缺乏原始视觉数据,且现有VLA专用QA数据集极少覆盖长尾场景;二是稀疏数据下微调效率低,长尾场景发生率低,模型难以从有限数据中有效学习。论文链接:https://arxiv.org/abs/2509.15968v1开源链接:https://github.com/FanGShiYuu/CoReVLA

为解决上述问题,CoReVLA提出持续学习的双阶段框架,通过“数据收集(Collect)”与“行为优化(Refine)”循环,提升长尾场景下的决策能力。整体流程如figure 1所示,分为预阶段(SFT)、第一阶段(接管数据收集)、第二阶段(DPO优化)三部分。

此阶段的目标是让VLA模型建立自动驾驶领域的基础认知,为后续长尾场景学习铺垫。

QA数据集构建:整合LingoQA、BDD、HAD三个开源数据集,形成70GB领域专用数据。数据格式设计贴合人类推理逻辑:每个样本包含5帧1秒间隔的连续图像(捕捉动态场景),以及思维链(CoT)格式的结构化QA对(分为“场景认知”和“安全驾驶策略学习”两类),既提升模型可解释性,也确保行为合理性。LoRA微调策略:选择Qwen2.5VL-7B作为基础模型,采用低秩适应(LoRA)对模型关键组件微调——仅更新“视觉投射器”(提升视觉-文本语义对齐能力)和“LLM骨干网络”(增强驾驶相关问题的理解与推理),避免全量微调的高计算成本。微调目标函数:采用自回归交叉熵损失,优化LoRA引入的可训练参数,公式如下:

经过SFT的模型可应对常规场景,但仍会在长尾场景中失效。此阶段通过人在环(HITL)测试,在沉浸式仿真平台(CAVE)中主动收集模型失效时的人类接管数据——每一次接管都对应一个模型无法处理的长尾场景。

CAVE平台设计:如figure 2所示,平台包含“ ego车辆(由CoReVLA控制)”和“背景交通参与者”,安全驾驶员通过VR头显以第一视角体验场景,并通过驾驶模拟器实时干预。背景交通支持“回放模式”(复现历史轨迹)和“交互模式”(动态响应),可覆盖多样化长尾场景。接管数据记录:当CoReVLA出现死锁、碰撞等风险行为时,系统切换至回放模式,驾驶员接管并修正。每一次接管会被记录为结构化样本,包含:历史图像输入、接管瞬间驾驶员的视觉注意力、驾驶员的控制动作、模型接管前的行为——这些数据将转化为DPO训练格式,用于后续优化。

直接偏好优化(DPO)是核心优化手段,其优势在于无需手动设计奖励函数(避免“奖励黑客”问题,即模型利用奖励规则漏洞而非真正提升安全性能),且能直接从离线人类演示数据中学习,适配长尾场景的稀疏数据特性。

DPO的数学建模

实验从“静态语言理解”(开环)和“动态场景决策”(闭环)两方面验证CoReVLA的性能,重点考核长尾场景下的表现。

在LingoQA、BDD、HAD三个数据集上,通过BLEU(文本相似度)和ROUGE(文本重叠度)评估模型对驾驶场景的理解的能力。

结果如table 1所示:CoReVLA在所有数据集的指标上均大幅领先基线模型(如Qwen2.5-VL-7B、Llava-7B)——例如在LingoQA的BLEU指标上,CoReVLA达到66.8,远高于次优模型Impromptu的24.8。模型响应对比(figure 3):在“行人横穿马路”场景中,基线模型(如Qwen2.5、Llava)要么无法准确预测行人运动,要么无法生成安全动作(如继续前进);而CoReVLA能准确识别行人意图,并生成“减速让行”的合理决策,验证了其场景理解与推理的有效性。

闭环评估分为“CAVE平台内优化效果”和“Bench2Drive基准测试”两部分,聚焦模型在动态、高风险场景中的实际驾驶能力。

CAVE平台内的优化效果

以“雨天突发静止故障车”场景为例(figure 4):

优化前:模型误将前方车辆变道解读为“行驶空间增加”,保持车速,直到临近故障车才紧急制动,最终导致碰撞;优化后:模型通过DPO学习人类接管行为,提前识别右侧静止车辆的风险,主动向左变道避让,成功避免碰撞。

figure 4中轨迹点的暖色调代表低速,可见优化后模型在风险区域更早降低车速,行为更贴合人类安全驾驶习惯。

Bench2Drive基准测试:对比SOTA

Bench2Drive包含大量长尾安全关键场景,通过“驾驶分数(DS,综合安全、效率)”和“成功率(SR,完成任务比例)”评估性能,结果如table 2所示:

CoReVLA的DS达到72.18,SR达到50%,较次优模型(DriveTransformer-Large)分别提升7.96和15%;效率与舒适度权衡:CoReVLA在效率(145.41)和舒适度(34.35)上未完全超越所有基线,原因是模型优化聚焦“安全优先”——人类在接管时更倾向于谨慎驾驶(如低速、频繁观察),甚至紧急制动,虽牺牲部分舒适度,但显著提升长尾场景的安全性。

跨场景泛化能力验证

如figure 5所示,在CAVE平台中构建“路边植被突然冲出行人”场景,优化后的CoReVLA学会“进入遮挡区域时减速观察”;将此能力迁移到Bench2Drive的“绿色车辆后突然冲出行人”场景时,模型同样能提前减速、及时制动,验证了其跨场景泛化能力——即通过人类接管数据学习到的安全策略,可应用于相似的长尾场景,避免重复失效。

双阶段“收集-优化”框架有效解决VLA在长尾场景中的痛点:通过CAVE平台的HITL收集高质量失效数据,再通过DPO对齐人类偏好,无需手动设计奖励函数,提升稀疏数据下的学习效率;实验验证CoReVLA的优越性:开环QA评估证明其语言理解与推理能力,闭环测试在Bench2Drive的长尾场景中超越SOTA,且具备跨场景泛化能力;建立了“数据收集-行为优化”的持续学习 pipeline:为自动驾驶长尾场景性能提升提供了可落地的范式。

来源:极市平台

相关推荐