AI算力砍掉59%!理想联手清华中科院,给算力做减法,性能反大增

B站影视 电影资讯 2025-09-25 02:07 1

摘要:过去的解决办法要么笨要么糙:要么固定剪掉一半令牌,结果把有用的信息也扔了;要么靠人工设定规则,调来调去也达不到平衡。这就形成了个死循环:想让模型跑得快,就得牺牲accuracy;想让它干活准,就得容忍慢半拍。

“让机器人听懂指令干活”这事,最近被理想汽车牵头的团队破解了一个大难题。他们刚推出的LightVLA技术,给AI模型做了场“精准减脂”。

剪掉没用的视觉信息后,模型不仅反应速度快了近4成,干活成功率还提上去了。这可是首次在VLA模型上实现性能和效率的双重突破,论文刚一发布就引发行业关注。

先说说机器人面临的尴尬处境。现在能听懂指令的机器人,靠的是VLA也就是我们说的视觉-语言-动作模型,看世界、懂指令、做动作。

但机器人的“眼睛”太敬业了,摄像头拍啥就传啥,一张图能转换成几百个视觉令牌,相当于图像的“信息碎片”,输给模型。

可麻烦的是,模型处理这些令牌时,计算量会跟着令牌数量的平方增长。就像让你在1000张照片里找一个人,比在100张里找要累得多。

理想汽车智能驾驶副总裁朗咸朋团队发现,这些令牌里藏着大量没用的信息,比如让机器人“放咖啡壶”时,背景里的墙纸、地板全是干扰项。

过去的解决办法要么笨要么糙:要么固定剪掉一半令牌,结果把有用的信息也扔了;要么靠人工设定规则,调来调去也达不到平衡。这就形成了个死循环:想让模型跑得快,就得牺牲accuracy;想让它干活准,就得容忍慢半拍

理想汽车联合清华大学、中科院的团队花了大功夫,搞出的LightVLA核心就是个“会做选择题的筛选器”。它让模型自己学会“该看啥、该扔啥”,而且整个过程还能通过训练不断优化,这就是“可微分token剪枝”的门道。

这个筛选过程分三步,说起来其实很直观:派“侦察兵”:先根据任务指令生成“查询向量”,比如接到“放咖啡壶”的指令,就派专门找“咖啡壶”和“炉子”的“侦察兵”。这些“侦察兵”是通过视觉信息和语言指令的交叉比对生成的,天生就懂任务重点。

给信息打分:每个“侦察兵”都给所有视觉令牌打分,越相关的分数越高,就像老师给作业判分一样精准。

聪明做选择:这里藏着最关键的技术,用Gumbel-softmax技巧让选择过程“可学习”。普通选择是“非黑即白”,选完就没法改;但这个技巧能让模型在训练中慢慢调整,刚开始会多试几种选择,后来逐渐固定最优方案,就像人学干活越练越熟练。

更贴心的是,团队还搞了个“噪声衰减”机制。训练初期让模型多尝试不同选择,后期慢慢聚焦最优解,避免“一根筋”选错方向。

在具身智能权威的LIBERO基准测试里,LightVLA交出了亮眼成绩单。对比常用的OpenVLA-OFT模型,数据反差特别明显。

视觉令牌从512个砍到78个,只留了15%;计算量减少59.1%,反应延迟降低38.2%;任务成功率反而从94.5%升到97.4%,多了2.9个百分点。

更有意思的是可视化测试。让机器人做“把咖啡壶放炉子上”的任务时,LightVLA会精准锁定咖啡壶、炉子和机械臂,背景里的柜子、墙面全被“剪掉”。而普通模型要么漏看咖啡壶,要么盯着墙面发呆。

团队还做了个“反证实验”:给LightVLA选好的令牌再加些没用的,成功率立马下降;要是从选好的里删掉10%,成功率也跟着掉。这说明它选的全是“精华”,没一点多余的。

这次的LightVLA是理想汽车、清华大学、中科院三方合作的成果,共同第一作者是清华直博生蒋体通和中科院直博生蒋雪枫,朗咸朋作为通讯作者牵头技术方向。从技术路线能看出理想的务实,不搞花架子,就解决真实落地难题。

现在的机器人、自动驾驶系统都受限于计算能力,家用机器人要是反应慢半拍,可能碰倒杯子;自动驾驶系统延迟高了,更是危险。LightVLA这种“轻量化”技术,能让模型在普通硬件上也流畅运行,成本能降不少。

团队还透露了个小秘密:他们还做了个叫LightVLA*的变体,加了可学习参数后效果照样好。这意味着这个框架能灵活适配不同场景。

不管是仓库巡检机器人还是自动驾驶汽车,都能用上这套“减脂大法”。目前项目代码已经开源,论文也能在arXiv上查到,连项目主页都详细公开了测试数据。

过去大家总觉得AI模型要“越大越好”,但LightVLA证明,聪明的“减法”反而能更高效。就像收拾房间时,扔掉没用的杂物,常用的东西反而更容易找到。

对于普通消费者来说,这技术最实在的好处是:未来家用机器人可能更便宜、反应更快,自动驾驶也会更安全。

而对行业来说,这打破了“性能和效率只能二选一”的魔咒,给具身智能落地指了条新路子。毕竟,能精准干活的AI,才是真的聪明。

来源:暮时史分

相关推荐