超越免训练剪枝：LightVLA引入可微分token剪枝，首次实现VLA模型性能和效率的双重突破

摘要：保留无用 token 导致性能下降：当在 LightVLA 已保留的 k 个 token 之外再补充 k 个随机 token 时，整体性能反而下降，说明 LightVLA 已经捕捉到所有关键信息，额外的随机 token 只会引入噪声与干扰。丢弃有用 toke

本文共同第一作者蒋体通，清华大学直博五年级学生，研究方向是VLA、自动驾驶和人机交互等。共同第一作者蒋雪枫，中国科学院计算技术研究所直博五年级学生，研究方向聚焦弱监督学习，多模态大模型应用和生成式自动驾驶等。本文通讯作者朗咸朋，理想汽车智能驾驶副总裁。

保留无用 token 导致性能下降：当在 LightVLA 已保留的 k 个 token 之外再补充 k 个随机 token 时，整体性能反而下降，说明 LightVLA 已经捕捉到所有关键信息，额外的随机 token 只会引入噪声与干扰。丢弃有用 token 导致性能下降：当从 LightVLA 已筛选的 k 个 token 中随机丢弃 10% 时，性能同样下降。充分验证 LightVLA 学会了选择对任务成功率更相关的视觉 token，并没有保留无用信息。结论我们研究了视觉 - 语言 - 动作（VLA）模型中固有的视觉冗余问题，并提出了一种无参数的可微分视觉 token 剪枝框架 LightVLA。通过基于无参数查询的 token 剪枝过程，该方法能够自适应地选择最具信息量的视觉 token。在 LIBERO 基准上，LightVLA 在显著降低计算开销的同时取得了当前最优的性能。我们还提出了另一种变体 LightVLA*，相较于 LightVLA，其引入了可学习查询作为额外的可训练参数，同样在性能上优于同类方法。本工作为解决 VLA 模型中的视觉冗余挑战提供了新的范式，在实现更低计算开销与时延的前提下取得了更优性能，为未来 VLA 模型轻量化与部署提供了新颖的解决方案。© THE END转载请联系本公众号获得授权投稿或寻求报道：liyazhou@jiqizhixin.com

来源：小雨科技观

标签： v vla模型 token lightvla token剪枝

本文地址：http://news.43b.com.cn/a/1324038.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!