超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

B站影视 日本电影 2025-09-24 14:45 1

摘要:保留无用 token 导致性能下降: 当在 LightVLA 已保留的 k 个 token 之外再补充 k 个随机 token 时,整体性能反而下降,说明 LightVLA 已经捕捉到所有关键信息,额外的随机 token 只会引入噪声与干扰。丢弃有用 toke

本文共同第一作者蒋体通,清华大学直博五年级学生,研究方向是VLA、自动驾驶和人机交互等。共同第一作者蒋雪枫,中国科学院计算技术研究所直博五年级学生,研究方向聚焦弱监督学习,多模态大模型应用和生成式自动驾驶等。本文通讯作者朗咸朋,理想汽车智能驾驶副总裁。保留无用 token 导致性能下降: 当在 LightVLA 已保留的 k 个 token 之外再补充 k 个随机 token 时,整体性能反而下降,说明 LightVLA 已经捕捉到所有关键信息,额外的随机 token 只会引入噪声与干扰。丢弃有用 token 导致性能下降:当从 LightVLA 已筛选的 k 个 token 中随机丢弃 10% 时,性能同样下降。充分验证 LightVLA 学会了选择对任务成功率更相关的视觉 token,并没有保留无用信息。结论我们研究了视觉 - 语言 - 动作(VLA)模型中固有的视觉冗余问题,并提出了一种无参数的可微分视觉 token 剪枝框架 LightVLA。通过基于无参数查询的 token 剪枝过程,该方法能够自适应地选择最具信息量的视觉 token。在 LIBERO 基准上,LightVLA 在显著降低计算开销的同时取得了当前最优的性能。我们还提出了另一种变体 LightVLA*,相较于 LightVLA,其引入了可学习查询作为额外的可训练参数,同样在性能上优于同类方法。本工作为解决 VLA 模型中的视觉冗余挑战提供了新的范式,在实现更低计算开销与时延的前提下取得了更优性能,为未来 VLA 模型轻量化与部署提供了新颖的解决方案。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

来源:小雨科技观

相关推荐