智源研究院院长王仲远：多模态大模型会给具身智能带来新变量

摘要：具身智能无疑是2025中关村论坛年会最热的话题之一。3月29日，智源研究院在2025中关村论坛“未来人工智能先锋论坛”上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。

具身智能无疑是2025中关村论坛年会最热的话题之一。3月29日，智源研究院在2025中关村论坛“未来人工智能先锋论坛”上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。

在接受媒体采访时，智源研究院院长王仲远表示，多模态大模型技术会给整个具身智能带来一些新的变量。这些技术有助于机器人更快、更高效地拥有“大脑”，从而具备更强的智能。

多模态大模型让机器人具备更强智能

王仲远表示，大语言模型已经在理解和推理能力上达到了非常高的水平，甚至在某些领域可以接近硕士或博士水平，已经从实验室进入产业界，但随着互联网文本数据基本已经被使用完毕，大语言基础模型的性能提升进入相对缓慢的阶段。

在现实世界中，存在大量多模态数据，比如流程图、医疗领域的X光片数据、CT数据和各行业的传感器数据等。多模态大模型能够让人工智能真正看到、理解、感知世界，并从数字世界进入物理世界，跟物理世界里的硬件结合，也就是具身智能。

“具身智能概念出现的时间比较早，对于具身智能的理解，传统研究者和从AI大模型领域转向具身智能的研究者，并没有在技术路线上完全达成共识。”他说，传统机器人训练依然在大量使用强化学习，通过重复练习，教机器人学抓杯子、倒水、写毛笔字等，这种类型的人形机器人，泛化性会弱一些。

但是大模型技术，尤其是多模态大模型技术，会给整个具身智能带来一些新的变量。这些技术有助于机器人更快、更高效地拥有“大脑”，从而具备更强的智能。

具身多模态大脑模型RoboBrain开源

当天下午，智源研究院发布了跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能。“简单来讲，它可以支持不同构型、不同品牌的机器人。不管是单臂机器人、双臂机器人，还是轮式机器人、人形机器人，都可以使用我们的具身大脑。”

王仲远说，RoboBrain能够帮助这些硬件具备一些泛化的智能，面向具身智能应用领域的多模态大模型，能够帮助机器人真正看到这个世界，对人类发出的指令进行拆解、逻辑推理和规划决策，再分配给不同的小脑模型来执行，“这是我们把多模态大模型向具身智能进行落地的一个尝试。”

RoboBrain能够解读人类指令和视觉图像，以生成基于实时图像反馈的行动计划和评估，预测每一步的轨迹并感知相应的可操作区域。目前，可支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体。

王仲远说，为了促进整个行业的发展，智源研究院将具身多模态大脑模型RoboBrain开源，希望能够与本体的厂商、模型的厂商、应用的厂商一起协作，促进整个具身智能行业更好更快发展。

他说，开源一直是推动计算机行业乃至人工智能行业过去这几十年快速发展的核心动力。“开源能够让我们的研究站在巨人的肩膀上，减少资源的浪费和无效的工作。不少商业化公司也探索出了开源与闭源结合的商业化模式。”

实现广泛意义上的AGI至少还需5-10年

针对人形机器人赛道扎堆的问题，王仲远说，行业内也有不少机器人公司迭代轮式构型的人形机器人，以避免双足机器人不稳定带来的能力局限。但从长远来看，人形机器人具有独特优势，其与人的构型相似，能更好适应社会基础设施，从海量互联网数据中学习人类技能，有利于具身智能和具身大脑模型的迭代。

短期内，人形机器人在产业落地方面仍面临诸多挑战，很多机器人尚处于“能走”阶段，正向“走得快、走得稳”的目标努力。

他预测，今年人工智能应用有望迎来大爆发，尤其是大语言模型的落地应用，中国海量的应用场景将加速这一进程。多模态大模型目前仍处于相对早期阶段，实现广泛意义上的AGI可能还需5-10年，甚至更长时间，这取决于本体能力、世界模型构建和数据等多方面因素。

谈及实现AGI（通用人工智能）还有多久，他表示，让人工智能理解人类的语言、解决实际生活中的具体问题，如做饭、洗碗等，距离实现这种程度的AGI还有很长距离。在这个过程中，依赖于本体的能力、对世界模型构建的进展和不同的落地场景中数据的积累等。多模态大模型和世界模型是实现真正AGI的必经之路。

新京报记者张璐

编辑张磊校对张彦君

来源：新京报

标签：模型模态研究院王仲变量

本文地址：http://news.43b.com.cn/a/987919.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐