摘要:保留无用 token 导致性能下降: 当在 LightVLA 已保留的 k 个 token 之外再补充 k 个随机 token 时,整体性能反而下降,说明 LightVLA 已经捕捉到所有关键信息,额外的随机 token 只会引入噪声与干扰。丢弃有用 toke
本文共同第一作者蒋体通,清华大学直博五年级学生,研究方向是VLA、自动驾驶和人机交互等。共同第一作者蒋雪枫,中国科学院计算技术研究所直博五年级学生,研究方向聚焦弱监督学习,多模态大模型应用和生成式自动驾驶等。本文通讯作者朗咸朋,理想汽车智能驾驶副总裁。
保留无用 token 导致性能下降: 当在 LightVLA 已保留的 k 个 token 之外再补充 k 个随机 token 时,整体性能反而下降,说明 LightVLA 已经捕捉到所有关键信息,额外的随机 token 只会引入噪声与干扰。丢弃有用 token 导致性能下降:当从 LightVLA 已筛选的 k 个 token 中随机丢弃 10% 时,性能同样下降。充分验证 LightVLA 学会了选择对任务成功率更相关的视觉 token,并没有保留无用信息。结论我们研究了视觉 - 语言 - 动作(VLA)模型中固有的视觉冗余问题,并提出了一种无参数的可微分视觉 token 剪枝框架 LightVLA。通过基于无参数查询的 token 剪枝过程,该方法能够自适应地选择最具信息量的视觉 token。在 LIBERO 基准上,LightVLA 在显著降低计算开销的同时取得了当前最优的性能。我们还提出了另一种变体 LightVLA*,相较于 LightVLA,其引入了可学习查询作为额外的可训练参数,同样在性能上优于同类方法。本工作为解决 VLA 模型中的视觉冗余挑战提供了新的范式,在实现更低计算开销与时延的前提下取得了更优性能,为未来 VLA 模型轻量化与部署提供了新颖的解决方案。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com 来源:小雨科技观
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!