万字总结:如何练就适配人形机器人的可靠「灵巧手」?

B站影视 内地电影 2025-06-10 18:32 1

摘要:圆桌主持人为元禾原点合伙人乐金鑫,同时圆桌还邀请了新加坡国立大学助理教授 & RoboScience创始人邵林、上海交通大学副教授 & 千觉机器人创始人马道林、浙江大学控制科学与工程学院百人计划研究员 & 博士生导师叶琦,共同开展一场深度交流。

VLA 未来有望升级为含触觉的 VTLA,以突破信息融合的技术瓶颈。

在具身智能快速崛起的当下,灵巧手作为连接数字智能与物理世界的关键载体,正从传统的执行终端跃升为人工智能落地的核心突破口。

2025 年 5 月 25 日,雷峰网、AI 科技评论、GAIR Live 品牌举办了一场主题为“具身智能之灵巧手的探索与应用“线上圆桌沙龙。

圆桌主持人为元禾原点合伙人乐金鑫,同时圆桌还邀请了新加坡国立大学助理教授 & RoboScience创始人邵林、上海交通大学副教授 & 千觉机器人创始人马道林、浙江大学控制科学与工程学院百人计划研究员 & 博士生导师叶琦,共同开展一场深度交流。

会上,嘉宾们各自分享了与灵巧手的故事,并围绕灵巧手软硬件挑战、数据与模型、落地与应用等多个方面发表独特见解。其中,三位嘉宾围绕如何灵巧手数据难题,分别给出了意见与想法。

马道林指出,当前灵巧手、夹爪相关的采集数据及其训练出的模型,仍处于整个具身智能领域的初期阶段,而且数据模态更多是视觉和动作方面,还未涵盖触觉。接下来一方面要采集更多多模态数据,另一方面是解决采集后不同模态数据的处理以及融合等问题。

邵林表示,数据难题早在 5 年、10 年,甚至 20 年前便存在,当下随着更多资源的投入,有望将数据规模跑起来。不过,数据的多样性分布难以改变,这需要一个海纳百川的框架,能将不同数据囊括其中,从而达到数据飞轮的启动阶段。

叶琦认为,过往受限于不同形态的机器人本体,难以有统一数据集、Benchmark 及统一平台来比较算法优劣,而开源机器人本体和数据集有助于为学术界提供研究算法及进行算法迭代的可能性,打破以往研究数据不足的问题。如果单靠研究员自己采集数据,始终只能在小规模数据集上进行验证,很难知道在更大规模的场景里是否依然有效。

以下是此次圆桌的精彩分享,AI 科技评论进行了不改原意的编辑整理:

01

VLA 未来有望进阶为 VTLA

乐金鑫:我们讨论的话题是具身智能之灵巧手的探索与应用,我是元禾原点合伙人乐金鑫,我们是一家在国内 AI 板块活跃的早期投资机构,隶属于苏州元禾控股,专注早期投资。今天我们也邀请了三位嘉宾一同交流, 请各位老师先简单自我介绍一下。

邵林:大家好,我是新加坡国立大学助理教授邵林,也是 RobotScience 创始人,我们主要关注具身操作、物体操作和具身系统的构建上。

马道林:大家好,我是上海交通大学副教授马道林,回国前曾在 MIT 做博士后,2021 年回国,去年我们创办了千觉机器人,主要做触觉感知,为夹爪和灵巧手提供多模态触觉感知能力,让大家能够采到高质量触觉数据。

叶琦:大家好,我在浙江大学控制学院做机器人相关研究。与邵老师、马老师不一样的地方是,他们可能从博士到现在所做的方向都有比较大相似性,但我中间有过转向。我读博时,包括在微软亚洲研究院所做的工作都是偏视觉方向,做人手动作感知。进入浙大后,一方面是延续做三维视觉、三维场景感知、三维重建;另一方面是在灵巧手的工作基础上继续往前开拓,包括手部动作的生成,目标是实现灵巧手与物理世界的泛化操作。

乐金鑫:今天的话题是灵巧手,请各位老师先谈谈自己对灵巧手的理解与认识,与灵巧手之间有哪些故事,是如何专注于灵巧手领域?

叶琦:我原本从事的方向并非机器人领域,而是人的灵巧手感知方向。进入浙大控制学院后,我开始思考向机器人方向结合。当时,计算机视觉已经发展多年,在人脸识别、手势跟踪、智能眼镜等领域应用逐渐成熟。我认为视觉虽仍有问题待解,但未来几年的新突破点可能相对有限。

于是,我想结合控制学院在机器人方面的优势,将视觉向实体迁移,比如人手动作。当时很多人形机器人动作生成研究致力于让生成的动作符合物理约束,那我就在想能不能在仿真环境中符合物理约束?更进一步能不能在实际环境中更符合物理约束?这成为我的转折点——从计算机视觉转向更注重物理约束和与物理世界接触的方向,进而进入现在的行业。

我希望从让灵巧手操作在物理层面实现更多泛化的角度出发。目前,仿真环境中动作生成大多表现还可以,但在物理世界中,即使是抓取动作也很难实现。因此,我认为灵巧手的关键在于在物理世界中受物理约束并与物理世界交互,这是它与大部分生成式 AI 的不同之处,也是最困难的地方。

乐金鑫:感谢叶老师的回答,您刚刚提到的“物理约束”能再展开谈一谈吗?它更多是针对手部结构和能力本身,还是说真实物理世界?这两者之间的互动关系是什么?

叶琦:我感觉两者都有,比如先不考虑实际物理,先单纯看仿真环境中的物理层面,这时候更看重手部精细结构,像我们现在做的任务,比如旋转拧瓶盖,完成动作本身肯定是没问题的,也可以用 AI 生成手部视频,但手部与物体接触瞬间,你能不能接触到,是第一点,这是大部分工作所面临的问题。

比如 Machine Learning 的方法大多数是充当 Approximator(拟合器),如果你要大规模拟合数据,就很难在局部保证精度,这就是拟合数据的误差。拟合数据与真实接触的问题,是现在大多数单纯生成式的方法难以去解决的。

我个人觉得,所有通过生成式 AI 的方法,要在毫米级或更细微精度下同时兼顾动作多样性和局部精度,单纯在没有物理约束技术下,是很难实现的。

第二点,比如一个细微的转动,接触时用多大的力,很难单纯通过视觉外观的数据获取,而现在很多 AI 生成的数据都是从外观获取,缺乏物理交互中的力反馈信息,也难以通过单一场景自动推导力控参数。

此外,机器人本体构型差异会进一步影响数据迁移后的操作精度,当前单纯依赖生成式 AI 的方法受限于数据来源和模型特性,难以解决上述物理约束问题。

乐金鑫:叶老师分享了关于物理约束相关问题,现在将问题抛给马老师,请马老师分享与灵巧手之间的故事,介绍相关研究。

马道林:与其说我们选择了灵巧手方向,不如说是我们一直以来坚持做机器人操作,而机器人操作的核心目标选择了以灵巧手作为执行器。我们,这里指的是包括我回国前后的团队,始终围绕灵巧手与夹爪等末端执行器开展研究,核心方向是触觉感知。

因为 2017 年参加亚马逊机器人挑战赛(日本站夺冠)时我们发现,纯靠视觉完成抓取放置(pick and place)的成功率很难突破 70%+。现在很多具身智能公司也在做抓取放置任务,大家现在能做到 90% 左右。

在当时,我们发现纯靠视觉很难提升成功率。许多失败案例源于执行器缺乏与物体接触瞬间及后续短时间内的感知,视觉易受遮挡、视角等限制。因此我们意识到必须为末端执行器赋予触觉感知能力,让灵巧手、夹爪能像人类一样,在接触物体时感知接触力、纹理、温度、滑动、运动等多模态触觉信息。

近两年人形机器人热潮带动灵巧手成为焦点,我们对此既感欣喜也保持冷静。灵巧手是具身机器人系统中最复杂且关键的模组。如果从单臂加手部的执行机构看,其自由度占整个系统的 80% 以上,动作自由度高、协同逻辑复杂、控制难度极大。正如刚才叶老师所言,高自由度的灵巧手在有限空间内与物体进行物理交互时,仅从运动控制精度层面便面临严峻挑战:如何在接触瞬间使生成模型精准预判接触状态,以及接触后通过微小动作影响目标物体?

我一直觉得这一控制复杂度远超 Locomotion ——尽管 Locomotion 对物理环境的感知具有不确定性,但它的核心是围绕自身状态进行确定性调控,例如质心平衡、倾斜度等,有一个明确的目标;而灵巧手操作的控制目标高度依赖场景和操作对象。在此过程中,单纯依靠视觉、动作感知或局部触觉信息,难以完成任务,因为各类信息不仅模态不同,信息流特征也存在显著差异,必须实现多源信息的有效融合。

视觉获取的全局信息通常呈连贯状态,比如视频中每两帧或一段时间内的数据流相对连续;而触觉在与物体真实接触前几乎无感知,接触后才触发局部信号——每个手指仅能感知所在区域的触觉,且需在同一框架内实现多手指信号的协同与互补。

二者在感知特性上差异显著。视觉对物体位置的感知精度可达毫米级,而触觉往往需要微米级、至少 0.0 几毫米的精度。面对这类精度不同、模态各异、连续性状态有别的多源信息,首先需解决高效采集问题,其次要将其有效整合到融合模型中,当前热议的 VLA 模型未来可能进一步升级为包含触觉的 VTLA 模型,以突破信息融合的技术瓶颈。

在灵巧手的多模态信息处理中,如何通过网络架构实现信息编码与协同、生成控制信号以及设定控制目标等问题,蕴含相当多的技术难点。当前 VLA 模型的进展很大程度依赖模仿学习(Imitation Learning),需采集大量数据支撑,但向强化学习进阶时又面临新挑战。

总体而言,灵巧手不仅硬件复杂度高,需要攻克可靠性、耐用性、易用性等难题,其数据获取与组织更是核心挑战。

乐金鑫:马老师,今天谈到灵巧手,也会讨论两指、三指、五指,既有数据、模型等层面的训练,也有构型上的选择,从你们研究重点的逻辑顺序来看,是否会有一个先后循序?哪一个可能更重要?

马道林:我觉得都重要,这可能是分工的问题。

乐金鑫:接下来请邵老师分享一下你们与灵巧手的故事,分别做了哪些工作。

邵林:刚才叶老师和马老师都分享了非常精彩的故事,我的故事也很久了。当时在斯坦福 AI lab 读博,那时斯坦福有各种各样的灵巧手设备,我开始思考如何让灵巧手具备抓取任意物体的能力。值得注意的是,斯坦福当时不止一款灵巧手,是有多种不同构型的设备,这引发了我们最初的思考:是否存在统一的构型或框架,让不同灵巧手完成对物体的抓取与操作?

我们的核心关注点是物体操作,灵巧手只是其中一个切入点。正如马老师所说,灵巧手基本是机器人应用系统中最复杂的体系之一,它集成并代表了具身智能与物体操作领域的各类挑战——从数据收集、感知到多模态融合等难点均蕴含其中。这也正是灵巧手兼具趣味性、巨大挑战性与未来机遇的原因,也是我们持续围绕这一方向展开各类研究的初衷。

乐金鑫:邵老师你们聚焦在操作上,当下有做了哪些具体工作吗?你们是怎么看待灵巧手的?

邵林:我们希望抓取模型的软件层能适配各类硬件层,这是我们关注的模式。由于硬件迭代速度远快于软件,如果软件能适配硬件会是很好的选择,这也是我们很早就开展相关工作的原因。

早在斯坦福时,我们就提出了较早期的数据驱动灵巧手工作 UniGrasp ,并测试了多种不同灵巧手。目前该方向研究持续推进,近期在 ICRA 会议上,我们的工作 D(R,O)Grasp 荣获机器人操作和运动领域最佳论文奖,这是对我们的认可,我们也会继续努力。

乐金鑫:邵老师,你们从软件角度做了很多适配硬件的工作。刚才我问马老师的最后一个问题也在探讨,构型在不同任务场景中千差万别,还没最终确定,那在这种现状下,软件层面要做哪些工作?是做好中间层去适配所有可能出现的不同构型的灵巧手,还是掌握一套方法论,让整个体系更高效有效地运行?

邵林:我们不光做算法,也参与硬件设计。之前和斯坦福的朋友Shenli Yuan做过 Rolller Grasper v2 和 v3 相关工作。Shenli当时把灵巧手的指尖从简单接触面换成小球这种构型,这是很有创意的想法。我们觉得这种构型对于手内操作有独特优势,所以我们在硬件、软件方面都有思考与经验。

关于如何回答刚才提到的问题,实际要分两部分来看。一部分是以物体为中心去描述如何抓取物体,本质就是机器人手对物体不同区域施加操作,使物体状态改变,这是从物体视角考虑的。从机器人本体视角考虑,则要关注各种构型,以及如何设计其运动空间与运动模式。

我们要做的是将两者结合,因为本质上是机器人的手通过与物体接触来改变物体状态,所以我们考虑的是如何从交互角度去设计灵巧手的各类算法。

02

要选未来 5 到 10 年有重要需求的方向

乐金鑫:把灵巧手概念泛化,从执行末端角度看,这个领域有没有亮眼、前沿的研究或解决方法?前段时间网上传播的中科大相关研究,像章鱼手之类的软体方案。这是个比较开放的话题,老师们怎么看?

邵林:很开心看到灵巧手受到了社会各界越来越多的关注,对于我们研究这个领域的人来说,是一件令人高兴的事。就像您刚才提到的柔性手,它有着自身独特的优势,无论是抓取方式还是接触稳定性方面,都有可取之处。

灵巧手其实是个很复杂的系统,需要硬件、软件、电子等各方向的人共同努力。我觉得比较关键的一点是要有一个方便高效的交流平台,这对促进整个行业、整个领域向前发展极为重要。像柔性夹爪、各类传感器,还有感知以及生成各种各样的位姿合成(pose synthesis)这些方面,不同背景的人对它们的理解都会有各自独特的见解。那如何融会、综合并收集不同领域人的认知?我觉得这是推动这个领域继续发展的一个关键方向。

马道林:在这个领域中我们特别关注到,不同生态位的公司和学术团队都在做事,毕竟这是个很复杂的事,需要多领域协同合作。

在这两年大家对灵巧手高度关注的形势下,我们能看到其产生的牵引作用,上游的零部件企业开始为这个领域打下基础,比如在驱动单元方面,无论是做灵巧手整体设计的,还是研究团队自己要搭建相关硬件平台的,都有了很好的选择。以前大家可能只能用舵机或者别的电机来做驱动,而现在,在有效需求的牵引下,产业链上游能为大家提供很不错的驱动设备了。

我们自身从传感器角度出发,也在努力为灵巧手的感知提供能获取高质量触觉数据的硬件和算法。从整体来看,这是很有益的。而且有不少年轻团队在做灵巧手相关的创业项目。

这个领域高度工程化,存在诸多工程化挑战。我觉得学校团队就别去攒灵巧手的硬件了,不妨等着产业界做出便宜又好用的硬件来使用。学校里的老师更应该从更深刻、更底层的前沿研究入手,前瞻性地去发现其中的科学问题以及有挑战性的地方。

就像叶老师刚才讲的,对于接触、约束这些内容,该如何有效地建模,又怎样在拟合器、仿真器、生成器里进行处理?我觉得这得往产业界前沿去探寻。

我在 MIT 的时候,受益很深的一点是我导师 Alberto Rodriguez 说的话,他如今是波士顿动力 Manipulation 方向的负责人。当时他讲,博士生或者学术领域的年轻人在选题时,要选未来 5 到 10 年有重要需求的方向,如果当下已经有公司在做的事,从研究角度来说,就别涉足了。要看得更远,要有前瞻性的判断,看到 5 到 10 年之后所需的事,无论是在理论方面、算法层面,还是更高层级的控制模型层面。这本身就是学术研究的意义所在,要做基础性、前瞻性的研究,也要敢于做有风险的研究。

叶琦:刚才马老师说的话让我挺有感触的。就拿谷歌的 RT 系列来说,在它通过 VLA 采集数据之前,我们其实也考虑过用遥操的方式去采数据,比如做一些演示数据,我们课题组也有老师在做这方面工作。

我自己也尝试过用遥操去抓取,可尝试之后,我就感觉这不是我们课题组短期内能做成的事。后来 RT 火了,很多创业公司按此技术路径采集数据,我去不少工厂参观,也用了他们的遥操设备,结果发现也挺难的,我大概操作了一分钟,都没能采出一条 Pick and Place(拾取和放置)的轨迹来。

所以从这个角度来看,大公司通过 VLA 去采集数据,或者采用众包(cloud sourcing)这种方式,把现有的数据融合起来,确实是很不错的途径。但我自己觉得,像马老师说的,这些事可以由能集成很多资源的公司去做。

对于高校而言,像这种大规模的数据采集工作,我们很难去做。所以我就一直在思考,怎样用更高效的方式去获取数据,以此来解决相关问题。

近些年来,尤其是近一年,我看到了一些挺亮眼的工作。一方面,我原本就一直秉持从人的角度去采集数据的思路,毕竟人是天然的智能体,向人学习是很自然的事。最近我学生跟我分享了一些工作,比如做三维视觉的老师,他们从人的角度出发,学习人在操作过程中的动作轨迹,把动作轨迹拼凑出来,再提取出接触区域,然后用这些数据去训练,全程没有用到一点机器人的数据,却能直接让机器人实现相应操作,虽说不是特别复杂的操作,但这恰恰体现了研究界的可贵之处,通过这样的 demo,为我们指明了一种可能性,也就是不一定要通过遥操作去做这件事,我觉得这是挺亮眼的一项工作。

另一方面,之前我们邀请邵老师来我们课题组做报告,邵老师介绍了他的一项工作,是用视频生成的方式,去生成机械爪或者人在操作过程中的下一帧视频。当时我就特别喜欢这项工作,后来我思考了很久,对于这个领域来讲,包括现在说到的 World model 视频生成,以及黄仁勋的一些观念,都挺值得赞同。

从更长远的未来来看,如果视频生成能够做到生成任意操作实例,那就意味着这个模型其实是隐含式地学习到了人该如何操作的相关信息。至于后续怎么从视频里把这些信息提取出来,那是另外一回事,或许还需要做大量工作。但模型本身吸纳了这么多人操作(无论是人操作还是机械爪操作)的数据,它其实就蕴含了对这些操作的理解。

我个人觉得,上述这两方面的工作是我目前非常喜欢的。一方面是从人的角度出发,利用人的数据,而且不一定要通过遥操作,毕竟遥操作很难规模化。另一方面是从视频生成角度入手,直接基于视频,模型里蕴含着对视觉方面的理解。相较于现在很火的 VLA 来说,我觉得这两方面的工作挺不错的。

乐金鑫:对灵巧手而言,数据是一难题,关于数据的来源、成本、获取方法以及未来数据沉淀的安全性等问题,老师们怎么看?

马道林:我们自己还没有采集大量的数据,尤其在操作任务层面。我们在实验室做研究时,采集的数据规模比较小。

我们也看到这个领域里很强的团队,像斯坦福团队,还有他们开源的 PI 模型,大家采集的是以视觉动作类为主的遥操作数据。同时,也有国内外的一些公司,从互联网积累了几十年的视频数据里去提炼数据,就跟挖矿一样,尽可能把动作数据以及与周围环境交互的数据中有价值的信息提取出来。

正如叶老师讲的,要通过这些让其学习到,比如对世界模型的部分理解,还有对周围物理世界的认知。

从数据角度来讲,我很认可这个领域里其他学者提出的数据金字塔说法。互联网数据作为底座,它的精度或许没那么高,但量足够大,涵盖的场景、任务也足够多,所以对泛化性的贡献很大,而且目前获取成本相对比较可控。

再往上就是仿真数据,获取仿真数据的成本要比直接从互联网“挖矿”更难一些,得有仿真器,还要有好的控制器,甚至仿真器里还得涉及遥操作等等。而真机数据成本就更高了,要有足够的硬件、操作工人等,一系列问题也会随之衍生出来。

实际上,不仅最底层的互联网数据需要提炼挖掘的过程,仿真数据、真实数据也并非采集完就行,采集后还需进行后端加工、质检等诸多流程,数据生产包含很多环节。数据数量固然重要,但质量更为关键,高质量数据是决定未来模型表现的重要要素。

只不过当下,大家只能在相对有限的数据及质量条件下展示一些成果。目前不管是灵巧手的采集数据及其训练出的模型,还是夹爪采集的数据及相应模型,都还处于整个具身领域非常初期的阶段。

当大家真正能建立起可持续的数据飞轮,形成持续积累海量数据的模式后,我们相信无论是具身模型的规模,还是其表现,都会比现在好得多。

目前来看,大家采集的数据模态更多是视觉和动作方面的数据,还没把多模态的触觉数据纳入进来。一方面要将多模态的数据采集出来,另一方面采集后还会涉及不同模态数据的编码以及它们之间的融合等诸多问题。

而且就当下的数据存量而言,把互联网数据当作底座的话,它本身是没有触觉数据这个模态的。鉴于数据本身有诸多需求,所以在仿真端,生成触觉数据的必要性和压力,其实比生成动作数据对仿真的需求还要高些。

当然,真机数据不管是动作数据、视觉数据还是触觉数据,都很珍贵、很重要,只是成本也比较高。此外,我们也看到一种新形态,就是大家通过商业方式去降低数据采集成本,这里面存在不少值得大家探索的机会。

邵林:叶老师和马老师已经总结得很到位了,马老师把数据金字塔讲完后,我其实没什么额外要补充的了。

我们也觉得,如何获取海量数据是比较关键的一点,也很乐意看到越来越多的努力和工作投入到这个方向,比如去生成大量的灵巧手操作数据等等。叶老师团队最近在这个方向就有很棒的工作。

同时,对于像马老师提到的触觉方向的数据,获取更多这类数据也是很关键的一点。不过我更想说的是,这些问题在 5 年前、10 年前甚至 20 年前就存在了,数据的分布并没有太大变化。只是近期有更多资源投入到这个方向,我们有可能把相关工作做得更具规模,这是比较关键的一点。

而且,数据的多样性分布实际上没办法改变,这就意味着需要一个海纳百川的框架,能将各种不同的数据囊括在一个系统里,让它能够逐渐达到数据飞轮的启动阶段,也就是把数据流转起来,这一点极为关键。一旦数据流转起来,就会形成正反馈,有了数据驱动的仿真加入进来,收集数据的代价会逐渐降低,数据量会逐渐增多,像视频数据、模型产生的各类数据等,都能逐渐整合起来,这点非常关键。

乐金鑫:评论区有一位观众留言,想问问老师们怎么看待开源数据集?

叶琦:我觉得开源数据集很有价值,整个操作领域,虽说已经研究了好些年,但仍处于比较初始的阶段。在机器人领域,以前受限于每个人的机器本体形态不同,很难有统一的数据集、统一的基准(Benchmark)以及统一的平台来做比较。

现在有了一些公开数据集,这对学术界来说意义重大。可能工业界不太看重这些数据集,毕竟他们自己能获取的数据量或许更大。但对于学术界而言,要是让老师们去采集数据集,那难度可不小。有了这些公开数据集,就好比巧妇有了米,学术界可以基于它们去评测、去研究算法了,能在算法层面推动向前发展。

我觉得这就是公开数据集特别有价值的地方,它为学术界这些像“小作坊”一样的老师们提供了研究算法以及进行算法迭代的可能性。

乐金鑫:刚才叶老师分享的时候,我原本觉得做前沿研究应该没那么多束缚,可听下来好像现在我们在研究方面,不管是经费还是别的各种问题,反倒给我们的研究工作带来了不少束缚。叶老师会不会觉得商业化获取资金更容易?

叶琦:这确实挺实际的,在高校做研究,经费很重要。像实验室的水电费这些都得操心,更别说其他事。哪怕只是做一些概念验证(proof concept)这样简单的验证,也得自己去采集些数据。

要是没有现在的公开数据集或者 VLA 数据集,没有众多研究人员把数据汇总起来供我们使用,单靠每个研究者自己的话,始终只能在小规模数据集上验证。那样的话,即便算法在小数据里验证没问题,效果各方面都好,可我们也很难知道这个算法放到更大规模场景里是否依然有效。毕竟测试的场景比较有限,这样的算法也就很难被大家广泛认同。

所以对于学术界来说,经费以及商业合作肯定是有促进作用的,尤其在当下大模型时代,我们得抱紧工业界的“大腿”,多合作才行。工业界有数据、有资源,而且他们对产业问题的认识在很多时候能激发我们做更多事,也会给我们带来不少灵感,让我们知道该去关注哪些问题,我觉得这非常重要。

马道林:对于开源数据集或者开源工具这类事,我浅显地认为,从商业理性角度看它是合理的。采集到的数据虽不会全部公开,像有些公司分享出的数据量挺大,但他们自己掌握的数据量更多,而且还会按场景区分,对商业落地重要的数据可能就不公布,相对宽泛的数据则会公布出来,不过这些公布的数据依然很有价值,毕竟采集数据成本颇高。

这些数据提供给公共平台,对像叶老师提到的高校里相关领域做研究的老师来说很有价值。因为让学生搭建平台、采集数据,再形成一套数据质量管理机制等,要耗费大量时间、精力以及经费。

如果商业化的大平台能提供这类公共产品,最终它也是受益方。高校的研究成果会以论文等形式呈现,但最核心的产出其实是人才,从高校走出来的人才会反哺到行业中,尤其会进入行业里的头部企业。这就是为什么头部企业有动力、有社会责任去做这类事,像国外很多大企业会给高校捐赠、支持高校基础研究,我在 MIT 时,拿到的一些企业资助甚至都没合同,就是纯粹的馈赠,可随意使用。很明显,作为行业龙头企业,最终能吸纳人才,也是技术成果的最大受益者。

所以从整个生态来讲,这是有益的事。尤其从高校老师角度看,合理、有效地利用这些数据集开展前沿研究、前瞻性研究,也是发挥自身特长。高校老师做研究、带学生做研究时,对创新的追求很高,而创新往往意味着追求不确定性,大家都在追求这种不确定性高但一旦做成影响力就很大的事。企业很多时候得追求确定性,毕竟风险高,需要控制风险,去做更可控的事。我觉得这种机制正好能协调双方,让大家以合理的方式做合理的事。

邵林:我也觉得开源数据集挺好的,很鼓励高校、研究机构能开源数据集。不过,数据集的发布和维护确实是挺头疼的事,要是有个更好的平台,能协调数据格式以及负责后期的数据维护,那对整个行业的发展就非常重要了。

03

落地前景广阔,找准需求场景

乐金鑫:接下来围绕各位老师在研究或创业中,面对具体需求和场景落地需解决的问题展开。我们先聊聊灵巧手落地整体情况,宽泛来说,就是灵巧手面向场景需求解决问题的效果及未解决好的问题,老师们怎么看?

邵林:我觉得灵巧手落地的前景挺广阔的,接下来这段时间,应该考虑一些落地场景,充分发挥灵巧手的高自由度,这是它相较于其他类型执行模块的优势所在。

在这个过程中,触觉融合是个很关键的点,另外,灵巧手硬件本体的发展也是我们十分期待的一个方向。

乐金鑫:您刚提到高自由度,面向场景落地时,一旦涉及场景,就得考虑成本、投资回报率(ROI)等问题。那这高自由度,到底多高才算高?大家对此有共识吗?

邵林:这其实取决于不同的落地场景。不过我要强调的是,灵巧手的高自由度有着自身独特优势,我们得选择合适的场景,让这些优势能够充分放大,这才是最关键的一点。

马道林:从落地角度看,灵巧手目前面临的一大挑战就是如何向终端客户交付价值,也就是要明确在什么场景下能让灵巧手得到应用。现阶段这都还处于很初步的阶段,毕竟灵巧手自身在硬件、软件、算法方面的完善程度还不够高,导致其下游的一些应用也处在起步阶段,具身相关的公司目前也没办法在面向家庭的 C 端客户,或是面向工业的 B 端场景里交付灵巧手的使用。

所以,这个领域落地的关键在于进一步打通整个链路,而这需要上下游协同配合,各自做好分内之事。比如做硬件设计的,要提升硬件的可靠性、控制的稳定性以及精度等。从感知角度来讲,我们得为大家提供好传感器采集数据的精度、一致性、质量以及采集工具。

现在灵巧手即便把硬件做出来了,像叶老师一开始说的,单纯靠遥操作来采集数据是有局限的,采集灵巧手的数据时,哪怕是用遥操作来采集单向、无反馈的数据,不管是采用视觉(region)的方式还是手套的方式,目前来看,其精度、自由度以及可靠性都会存在一定限制。

所以,怎么协同做好数据采集这一端,让具身公司能采集到优质数据很关键,毕竟这些具身公司也在做自己的硬件,只有硬件数据好了,后续算法模型部署等相关事宜才能顺利开展,整个链路打通了,灵巧手才能真正在工业和生活中落地,我觉得这里面的挑战还是蛮大。

乐金鑫:如果您站在 B 端客户的角度,比如说是一家车厂,它需要一个灵巧手概念的执行末端,那您觉得这个价格处在什么区间比较合适呢? C 端呢?

马道林:这个问题太难了[捂脸]。也许,对于工业客户而言,如果其能够做到使用寿命能达到几年以上,不用一两年就更换,那么包含控制算法,与手臂集成的整套系统,在当前市场环境下,30 万到 40 万我觉得是可以接受的。

不过随着市场竞争加剧,往后大家对成本把控会更严,成本肯定还会进一步下降。要是扣除机械臂等成本,单就灵巧手这块,毕竟还涉及采集大量数据训练算法、输入模型等情况,大概在工业上能接受的成本得在 10 万左右。

而面向 C 端的情况大概率要比 B 端更晚实现,并且C端对成本的承受能力也更低。我感觉未来要是面向 C 端的话,一个灵巧手的价格可能得控制在一两万以内,说不定一对灵巧手加起来都不到 1 万,不过这是比较远期的情况了。

邵林:与此同时,价格下降其实类似一种规模效应(scaling law)的概念,当部署的量增加后,价格就会快速下降。

叶琦:之前总有人跟我聊这行业很火,可我却常常给他们“泼冷水”,因为我个人切实感受到,从算法、硬件平台,到传感等各方面,虽然几位老师也都提到了相关内容,但我还想再强调一下仿真技术。

我觉得在未来整个技术路线的发展中,仿真是不可或缺的。就像马老师讲过互联网仿真数据、真机数据,数据确实可以先离线采集下来再提供给模型。但既然是离线采集,那为何不让智能体直接进入环境去交互,还可以大规模并行地去探索,这样带来的收益是很大的。

毕竟很多时候,数据采集要覆盖现实生活场景里各种各样的可能性挺难的。而在仿真环境里去制造各种情况就相对简单些,虽说也不是轻而易举,但可以做很多随机化的操作,比如今天把场景颜色换一下,明天换个别的颜色,或者把摩擦力调大调小等等,能制造出很多可能性。

在现实生活场景里,要把所有变量组合都采集起来是有难度的。未来真要面向落地的时候,不能是发现一个问题就去采集一波数据,那样太难了。可以做的是,当发现用户有某个问题时,给他构造一个仿真环境,让他自己去探索,要是光线方面有问题,那就再给他渲染出合适的光线情况。

所以我觉得仿真平台在之前提到的硬件、算法以及感知层面之上,未来是需要去补充和发展的。 机器本体在仿真平台里进行探索是很重要的一点。

说到落地情况,现在很多资本市场觉得操作机器人、机器人领域存在泡沫,我倒不这么认为。只是目前技术确实没发展到那一步,但资本市场看重的就是可能性,人类生活的发展也是着眼于未来的可能性,所以才有了如今的发展态势。

以灵巧手为例,四五年前我们采购机械手时,国内虽说也有不少公司在做,但数量没现在这么多,而且灵巧度也不太理想,那时我们大多只能采购国外的灵巧手。

不过,从前一两年开始,国家推动这个方向发展,资本纷纷进入这个领域,涌现出很多创业公司,你看现在,国内做灵巧手的硬件本体的公司已经有很多了,虽说它们的产品可能还没经过市场的考验,但起码做出了 demo,产品形态也出来了。仅仅一两年或者两三年的时间,就有这么多灵巧手可供我们选用了。所以,之前大家觉得是泡沫,可资本一进入,短短两三年就有这么多灵巧手涌现出来,我觉得未来特别值得期待。

后续要是有更多资本涌入,就会推动人才往这个方向汇聚。虽说目前受各方面技术限制,各方面都存在不足,但发展态势着实让我欣慰又激动。

我觉得五年之后,或许在某个场景里,就像扫地机器人那样,会出现面向特定领域、能开始干活的机器人,虽说可能还稍显笨拙。而十年之后,说不定就能出现面向特定领域、操作比较娴熟的人形灵巧手或者人形机器人形态了。

所以说,虽然目前灵巧手落地在各方面都还需要大力发展,但在未来五年、十年内,它在特定行业落地是很有可能性的。这就是我的看法,不过具体到这个行业未来具体会怎样,我确实不太确定。

乐金鑫:叶老师,据我了解,目前高校可能是灵巧手比较大的一个客户场景。从使用者的角度来讲,您觉得现在买的灵巧手价格贵不贵?

叶琦:其实我们是2020年开始采购的,当时买的都是国外的灵巧手,那价格真是太贵了。不过现在我们也希望能和国内的一些厂商、单位合作来做这事,只是我们抱着比较谨慎的心态,毕竟国内新生产出来的灵巧手可能还有很多需要优化的地方,像稳定性等各方面都得好好考察一番。

相对于国外的或者一些开源性质的灵巧手,比如邵老师推荐的一些,很多老师用过后觉得不错,主要是价格便宜,还比较耐用,对我们来说挺重要的。而且学生去学习使用它的成本也不高,没太多问题,有没有开源的、有没有使用经验以及有没有社区能供大家相互讨论,这些都很关键。

以前我们买的灵巧手本体都非常贵,毕竟是三四年前、四五年前买的。现在价格虽然降下来了一些,但对我们的经费来说,还是挺有压力的。哪怕是现在,一些带有触觉传感器的手也挺贵,可能一双也将近10万。而且往往一双手不够用,要是这双手坏了,在要产出论文或者做相关工作的时候,总不能干等着它修好,肯定得准备备用的,那就是得再加 10 万。要是加上整套研究系统,相对来说,一套下来四五十万是常有的事,这对高校老师来讲,确实是有一定压力的。

乐金鑫:最后再抛一个更开放的话题,想请各位老师对比中美在各自相关领域(灵巧手或具身领域)是否存在差距,如果有,具体体现在哪及差距大小。另外,各位老师回国后,在创业或研究中,相较于国外,国内有哪些好的地方?

邵林:我觉得在当前环境下,我们更要强调大家协同做事,也特别希望中美之间能有更开放、多元且充分的交流。

说到差异,我觉得具身领域就像一片大海,大家有着不同能量,在这片大海里会有各种各样的协作方式,这才是很重要的。我们期望大家都能抱着合作的心态去做事,毕竟整个行业的发展必须得有开放的心态。

我觉得在大层面上不存在什么差异,只是不同的研究团队、不同的机构可能会有自己的想法,对于行业怎么发展、技术如何迭代以及具体怎么做等方面,每个人都会有不同的视角,这种开放多元的情况是挺好的,要是所有人对同一件事的看法和做法都一样,那整个行业的发展可就容易陷入瓶颈期了。

乐金鑫:那从更关注国内的角度来讲,对于咱们整个行业以及从业者,您觉得咱们中国这股力量在哪些方面能够做得更突出些?您对此有什么期待?

邵林:我希望大家能对这个行业抱着乐观、开放的心态,并且能有更多支持投入到这个方向上来,毕竟这不是短期内就能完成的事,它所产生的影响以及带来的价值也不是短期内就能显现的。

马道林:相对邵老师,我回国工作的时间相对长一点,就稍微比较下两边的情况吧。

从具身智能是人工智能衍生的角度,按照人工智能的三大要素,也就是数据、算力、算法这三块来说。在数据方面,咱们国内是有优势的,不管是采集数据的成本,还是开发采集数据的硬件相关工具,国内都相对更胜一筹。尤其具身智能要将人工智能融入物理实体、走向现实世界,必然会涉及深刻的硬件迭代,而硬件迭代这块,咱们国内产业链的迭代效率比较高。

在算力和算法层面,咱们跟美国或许存在一点差距,但这差距并非本质性的。

说到人才方面,近些年来国内有不少从海外回来的年轻老师,他们带着自己的团队在做这个领域最前沿的工作。虽说暂时在影响力上可能比不上海外一些知名团队,但大家紧跟最新方向,做创新性工作,咱们国内团队多次能在国际会议上做出很开创性的成果。所以我觉得国内人才济济,聪明又有才华的学生也很多,这方面情况挺好的。

从创新创业的产业氛围来看,两边都挺热闹的。

我觉得在咱们国内这个领域,大家要是协同起来,能形成更完整的闭环链条。就拿上下游协同来说,国外的团队基本还得靠国内厂商供应一些基础设备或者研发的硬件,而咱们国内自己就能形成这样的闭环。并且,咱们国内头部的具身公司也在努力打造生态。

从另一个角度看,国内有着非常好的应用场景,毕竟有着庞大的制造业,能为大家提供极为宽广的应用场景,市场规模相当大,就看大家能不能从中找到属于自己的机会了。

我认为具身智能行业目前还处于很早期的阶段,虽然也存在竞争,但更多的还是要先练好自己的基本功,然后在这么大的市场需求以及现有的资本环境、政策环境下,努力把自己的事情做好。

叶琦:关于中美差距这个问题,我觉得差距在一定程度上确实是存在的。毕竟美国发展了这么多年,过去那些年还吸引了全世界的人才,也有一些实力很强的企业,这确实是它的优势。

不过,我个人看到近年来国内的研究界有了很大变化。咱们国家过去几十年一直在推行各类奖学金计划送人才出去同时引进人才回国的举措,再加上当下中美关系的情况,有不少人才回归国内。对比我以前读书时国内和国外研究的氛围及各方面情况,现在已经有了非常大的改变。

从研究组的情况来看,我觉得很多国内的研究组和国外那些非常有名的研究组相比,差异已经不那么明显了,甚至可以说差不多了。我一直觉得人才是基础,现在国内有大量人才,他们有过留学经历,既吸收了西方先进的思想,又结合了国内先进的做法,在这样庞大的人才储备基础上,从研究角度来讲,我感觉中美之间的差距好像在慢慢缩小,基本处于一个逐渐持平的阶段了。

当然,美国也有它的优势,而在国内的产业界,我感觉就像马老师说的那样,供应链是非常全面的。毕竟具身智能离不开本体制造,而美国并非制造业强国,这方面和咱们国内是有区别的。 供应链完整是中国发展多年积累下来的巨大优势,对未来具身智能的发展来说更是如此。

另外,国内还有个更好的机会体现,我有个朋友从帝国理工毕业时,本来可以去美国,但他没去,我问他为啥,他说美国没那么多创业机会,他是浙江温州人,本身就有创业想法,所以就决定回国回温州了,从个人角度就能很强烈地感受到中美之间这些细微变化。

所以我觉得国内有着很好的创业环境,而且国家对于我们现在从事的具身智能这类方向也在大力推动,在这样的情况下,大家都是受益者,我对此感受挺深刻的。

除了本身良好的创业生态,还有国家助力行业向前发展,这都是很好的地方。

说到对这个行业的长期期望,我其实没怎么接触产业,理解没邵老师、马老师那么深。我觉得虽然我们确实需要积极进取、快速发展,但也要认清,不管是具身智能还是灵巧手操作,目前都还处于发展初期阶段。用客观的技术发展眼光来看,看工业界和学术界展现的 demo,以及其他一些领域外的听着好像已经落地的事情,都是挺正常的。

有时候一个 demo 可能反复调试很多次才做出来,甚至有些情况下还不奏效,这些都很正常。整个行业的发展不是看两三年,可能得从 5 到 10 年的跨度去考量,从这个角度看待问题的话,或许我们做决策时,对其他一些情况的容忍度也就能更高一些。

乐金鑫:好的,谢谢老师。不知不觉间,两个小时就过去了,期间是思想的碰撞与认知的交汇。今天我们三位嘉宾,来自不同的高校,有着不同的创业背景,感谢邵老师、马老师、叶老师在一起碰撞出了不少精彩的火花。//

来源:雷峰网leiphone

相关推荐