摘要:在机器人技术领域,一个重大挑战一直是让机器人能够自然地理解语言指令并在真实世界中执行对应动作。2025年6月,由Hugging Face、巴黎索邦大学、法国Valeo公司和巴黎高等师范学院研究人员共同合作的团队发布了一项突破性研究——SmolVLA。这项研究由
为什么我们需要更小、更高效的机器人模型?
想象一下,你有一台家用机器人,你希望它能理解"把红色积木放进盒子里"这样的简单指令。听起来不难,对吧?但实际上,让机器人理解人类语言并执行相应动作,一直是人工智能领域的一大挑战。
近年来,视觉-语言模型(VLM)在互联网规模的数据集上预训练后,已经能够很好地理解图像和文本。研究人员开始将这些模型应用到机器人领域,发展出所谓的视觉-语言-动作(VLA)模型,让机器人可以根据自然语言指令和视觉观察来执行任务。
然而,现有的VLA模型通常体积庞大——参数量往往达到数十亿级别,这导致训练成本高昂,且难以部署到实际应用中。此外,这些模型大多依赖学术和工业数据集,忽视了来自普通爱好者社区收集的数据资源。
SmolVLA团队看到了这一痛点,他们提出了一个全新问题:能否创建一个小型、高效且能力强大的VLA模型,使其能够在消费级硬件上运行,同时保持良好的性能?
SmolVLA:小身材,大能量
SmolVLA就像是VLA模型世界中的"迷你库珀"——体积小巧但性能强劲。这个模型仅有4.5亿参数,比现有的主流VLA模型小了约10倍,却能达到与它们相当甚至更好的性能。更令人惊讶的是,SmolVLA可以在单个GPU上训练,甚至能在CPU上运行,这对于资源有限的研究人员和爱好者来说是个巨大福音。
SmolVLA的核心理念是:通过巧妙的架构设计和训练策略,证明小型模型也能在机器人控制任务中表现出色。这就像是一位厨师不需要一整套昂贵的厨具也能烹饪出美味佳肴,关键在于技巧而非工具。
社区数据驱动的学习方式
传统的机器人学习通常依赖于高度结构化的学术或工业环境中收集的数据。SmolVLA团队则另辟蹊径,他们利用来自Hugging Face社区的481个数据集,包含约2.3万个机器人操作片段和1060万帧图像。
这些社区数据集就像是由全球各地的"业余侦探"提供的线索,它们反映了真实世界的复杂性:不同的机器人、不同的相机角度、不同的任务,甚至包含噪声和不完美的示范。这种多样性恰恰成为了模型学习的宝贵资源。
研究团队还巧妙地解决了社区数据集带来的标准化挑战。例如,对于任务描述不清或缺失的数据集,他们使用现成的VLM模型(Qwen2.5-VL-3B-Instruct)自动生成简洁的任务描述。对于相机视角命名不一致的问题,他们手动将每个相机映射到标准化的视图类型,优先考虑顶部、手腕和侧面视角。
模型架构:精巧的"折纸艺术"
SmolVLA的架构设计堪比精妙的折纸艺术,在保持小体积的同时实现强大功能。整个模型由两个主要部分组成:
首先是预训练的视觉-语言模型(VLM)。团队选择了SmolVLM-2,这是一个专为多图像和视频输入优化的小型高效模型。SmolVLM-2使用SigLIP编码视觉特征,并将这些特征输入到SmolLM2语言解码器中。在SmolVLA中,VLM负责处理图像序列、语言指令和机器人的状态信息,并将它们融合成特征表示。
第二部分是动作专家(Action Expert)。这个组件接收VLM的特征输出,并预测一系列连续动作。动作专家使用交错的交叉注意力(Cross-Attention)和自注意力(Self-Attention)层,通过流匹配(Flow Matching)技术训练,可以输出连续动作块。
研究团队还引入了几个关键创新来提高效率:
1. 视觉令牌减少:通过限制每帧图像的视觉令牌数量为64个,大大提高了处理速度。
2. 层跳跃加速推理:研究发现,不需要使用VLM的所有层。他们设置N=L/2(使用总层数的一半),有效地将计算成本减半,同时保持良好性能。
3. 交错注意力层:不同于之前的VLA架构仅使用自注意力或交叉注意力,SmolVLA交替使用这两种机制,获得更好的效果并加快推理速度。
异步推理:让机器人更灵活应对变化
在传统的机器人控制中,模型输出一系列动作后,机器人会执行完所有动作才获取新的观察并预测下一组动作。这种同步推理方式在动作执行与动作预测之间造成了"空档期",降低了系统响应性。
SmolVLA团队提出了一种异步推理策略,就像是让机器人的"手"和"眼"能够独立工作。在这种策略下,机器人可以一边执行当前动作,一边已经开始处理新的观察并预测下一组动作,从而消除推理延迟,提高控制频率。
具体来说,当动作队列消耗到一定阈值(比如剩余30%)时,系统就会捕获新的观察并发送给策略服务器进行处理,而不必等待当前队列完全耗尽。这就像是开车时,你不会等到油箱完全空了才去加油,而是在还有一定油量时就开始计划加油。
实验证明,异步推理使机器人完成任务的速度提高了约30%,在固定时间内可以完成更多任务(19次对比同步模式的9次)。更重要的是,这种方式使机器人对环境变化的反应更快、更稳健。
实验结果:小模型,大惊喜
SmolVLA在各种基准测试中的表现令人印象深刻。在LIBERO和Meta-World这两个模拟环境基准测试中,SmolVLA不仅超过了其他同类开源模型,如Octo和OpenVLA,还与经过机器人数据预训练的更大型模型(如π0)表现相当。
在真实世界的测试中,SmolVLA在多个任务上的表现同样出色:
1. 抓取与放置任务:机器人需要抓起立方体并放入盒子中。SmolVLA在这项任务上达到75%的成功率。
2. 堆叠任务:机器人需要将红色立方体放在蓝色立方体上。SmolVLA在这项任务上达到90%的成功率。
3. 分类任务:机器人需要根据颜色将立方体分类到不同的盒子中。SmolVLA在这项任务上达到70%的成功率。
与训练单个任务的ACT模型(成功率48.3%)和更大的π0模型(成功率61.7%)相比,SmolVLA在多任务训练设置下的平均成功率达到了78.3%。
更令人惊讶的是,SmolVLA还展示了出色的泛化能力。在没有见过的SO101机器人上,经过单任务训练的SmolVLA在分布内测试中达到90%的成功率,在分布外测试中达到50%的成功率,明显优于基线模型ACT。
关键发现与设计选择
研究团队进行了广泛的消融实验,揭示了几个关键设计选择的重要性:
1. 交错的交叉注意力和自注意力机制比单独使用其中任一种都更有效,在LIBERO基准测试中平均成功率达到85.5%,而纯交叉注意力为79.0%,纯自注意力为74.5%。
2. 在动作令牌之间使用因果自注意力(只能看到过去的令牌)比双向自注意力效果更好,这表明防止未来动作泄露对性能很重要。
3. 使用VLM的前半部分层而非所有层能够在保持性能的同时显著提高效率。
4. 流匹配训练目标比传统的回归目标效果更好,这与之前研究一致,表明流匹配为建模复杂的多模态动作分布提供了更好的归纳偏置。
5. 将机器人状态信息输入到VLM而非直接输入到动作专家,可以显著提高性能。
未来方向与局限性
尽管取得了显著成果,SmolVLA仍存在一些局限性。研究团队坦诚地指出了这些问题:
1. 数据集多样性和跨实施训练:当前预训练主要使用来自单一机器人类型(SO100)的数据集。虽然模型可以微调到不同的机器人上,但研究团队认为,纳入更多不同机器人平台的训练数据可能对提高模型泛化能力至关重要。
2. 数据集规模:用于训练的数据集包含约2.3万个轨迹,明显小于典型VLA训练方案中使用的数据量。扩大数据集规模可能会显著提高模型在更广泛任务和环境中的性能。
3. VLM主干网络的选择:SmolVLA使用的是主要在文档阅读和OCR任务上预训练的现成VLM。未来工作可以探索更专门化的预训练策略,以更好地适应机器人环境的特殊需求。
4. 任务复杂性和长期规划:虽然SmolVLA在相对简单的短期任务上表现良好,但扩展到处理更复杂的长期问题仍是一个重要挑战。整合分层策略或多级规划机制可能有助于解决这一问题。
结语:小型模型的大未来
SmolVLA的研究表明,在人工智能和机器人领域,"更大"并不总是意味着"更好"。通过精心的架构设计、训练策略和推理优化,小型模型也能达到甚至超越大型模型的性能。
这项工作为机器人研究的民主化和普及化铺平了道路。现在,即使是资源有限的研究人员、教育工作者和爱好者,也可以在普通硬件上训练和部署先进的机器人控制模型。SmolVLA的成功证明,机器人技术不必依赖于昂贵的硬件和大规模数据集,而可以通过社区努力和巧妙的技术设计来实现。
研究团队已经开源了所有代码、预训练模型和训练数据,鼓励更广泛的社区参与和进一步改进。这种开放精神将有助于加速机器人研究的进展,最终让智能机器人成为我们日常生活的一部分。
随着SmolVLA这样的工作不断涌现,我们有理由期待未来的机器人系统将变得更加智能、高效,同时也更加亲民和易于获取。正如这项研究所展示的那样,有时候最强大的解决方案并非来自最复杂的模型,而是来自最巧妙的设计。
来源:至顶网一点号