从具身到智能,无尽前沿丨智源具身智能峰会观点集锦(下)

B站影视 2024-11-21 19:42 2

摘要:2024年11月5日,北京智源人工智能研究院主办的“智源论坛·2024具身与世界模型专题峰会”在智源大厦举行,智源研究院理事长黄铁军、智源研究院院长王仲远、智源研究院副院长林咏华出席大会。智源具身多模态大模型研究中心负责人、北京大学研究员仉尚航,智源具身智能研

2024年11月5日,北京智源人工智能研究院主办的“智源论坛·2024具身与世界模型专题峰会”在智源大厦举行,智源研究院理事长黄铁军、智源研究院院长王仲远、智源研究院副院长林咏华出席大会。智源具身多模态大模型研究中心负责人、北京大学研究员仉尚航,智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤,Google DeepMind研究科学家,谷歌RT1、2,SayCan作者Ted Xiao以及来自清华大学、香港大学、康奈尔大学、UC Berkeley、英国曼彻斯特大学、大湾区大学(筹),中国科学院等知名高校和研究机构的学者专家,加速进化、傅利叶、乐聚机器人、星尘智能等具身智能头部企业的创始人、CEO围绕具身智能和世界模型的前沿方向、技术实践进行了主题分享与深度探讨,以下是观点集锦(下)。

回放链接:https://event.baai.ac.cn/live/855

Part.

01

人形机器人场景与产业探索

冷晓琨丨乐聚机器人创始人

2023年以后,人形机器人领域的发展才慢慢受关注起来。从这一年可以看出,技术路线已经逐渐同质化,正在由一个大科学问题逐渐向工程方面调整。在细节上,每个团队的实现方式不一样,但整体思路都在不断做泛化、强化学习和应用。

团队的发展定位很清晰,就是把本体和操作系统这两部分做好之后,再把具身智能、应用包和应用场景开放出来。过去几年,在操作系统中,工程性问题和底层的算法优化问题被分割成两个领域,一部分属于计算机,一部分属于机器人。去年团队实现的最核心业务就是把Linux底层进行充分的优化,保证了人形机器人能持续稳定地输出。

从早期到现在,团队做人形机器人是以运动控制起步,核心是以Model Base为主。强化学习暂时很难应用于产业化,主要面临两个问题:第一,批量化复制问题,尤其是基于现有情况做强化学习训练,如果批量化出货,难以让每一台机器人达到一致的运动效果;第二,运动控制的精细化问题,强化学习训练的机器人,行为有很大的不确定性。如果是基于Model Base,做好足够的优化,机器人的可观复制性和精确性是可以确定的。接下来的研究,会采取基于ModelBase控制算法产生的数据数据作为强化学习模型参考的方式对机器人进行训练。

接下来的问题是人形机器人能进入到什么场景中应用。科研是开发者群体的培养过程,因为人形机器人的研发不是一个团队就能完成所有部分,所以要尽可能把产业链上下游整合。现阶段完成的是一个科研版的平台,把案例做好标准化,大模型都是跟第三方的合作,比如灵巧手。

目前对人形机器人产生核心影响的部分在于大模型。人形机器人到底能深入应用到什么场景,还是依靠于大模型。所以第一步的定位是让人形机器人进入到和物理世界交互尽可能少的场景,比如商服和展厅。首先在展厅代替讲解员。搭载大模型以后,必须要用Model Base的方式,人形机器人才可以在展厅行走。第二个是代替导购员。从现实角度,人形机器人可以节省很多成本,如果用在高端的店里,还能提高品牌的保障性。第三是服务场景。现在还在探索阶段。

今年人形机器人在工业场景上的落地案例主要包括三个,一汽、亨通和蔚来汽车。现在的实现场景主要与辅装、检测相关,在这些场景用人形机器人替代人工,因为其他形式人进不去,这才是人形机器人真正要解决的事。

回顾最近一年,人形机器人的发展达峰时间比其他产业要来得更快。一旦达峰之后,低谷期也会来临。接下来要考虑的不是让人形机器人如何实现走路或爬山,而是要在产业中得到真正的应用。一旦有落地的应用,无论是资本还是社会能够看到信心,人形机器人才会有下一步的发展。

Part.

02

具身技能-得心应手

王煜丨大湾区大学(筹)讲席教授、先进工程学院院长

这次报告的内容主要聚焦在戴盟机器人的定位、市场路线以及对将来机器人落地的要求。这里强调的是机器人需要有技能进行准确和精细的操作。人形机器人创新发展的关键包括技术攻关、大脑、小脑、大模型几个方面。基础件包含高精度传感器,列为视觉、听觉、嗅觉和触觉四种类别,使用这四觉建立模型,才能指导人形机器人产生通用技能。其中触觉传感器很重要,触觉信息的获得和泛化涉及到小模型甚至是大模型的应用。

在半导体3C的装配场景中,牵涉到样品不规范,零件有大有小等问题。因此半人形的机器人就有了一定的应用空间,主要用于定位,涂胶,抛光或者检测。这个应用场景对机器人提出了一个非常重要的要求,就是它要能有精细操作技能。

在技能学习中,触觉是一个重要的元素。人的触觉有感受能力、有动感、力感和滑感。从工业角度看,如果机器人能够实现像人一样的技能,一定需要有很好的触觉传感器,具备多维度、多密度的感知力,最后实现四触闭环,完成有技巧的操作。戴盟就是希望把这样的技术和学习方法、数据采集,以及模型的建立,能够落实到人形机器人上。研究认为需要通过大语言模型或深度学习,把具身技能传输给机器人。有了这些工序以后,机器人才能学会一种技能,像人一样拧螺丝钉。

现在市面上流行的是以光学为基础的触觉传感器,戴盟也是这个方向的领军者。从2018年开始到现在团队做成了一种性能非常稳定的产品,有12种不同的模态,能提供现代机器人学习时所需要的触觉力的模态。和其他的电阻电容传感器相比,只有光学传感器可以实现点阵式、高密度,能测力和变形分布。其他传感器能够准确测试一些力的分布,但分布性就差一点,而且从成本来讲也不容易做到密、好和小。

从最直观的角度来讲,能做到像人这样的灵巧手,再加上丰富的触觉感知和有很好的学习方法学会这些技能,机器人就实现了精准操作的目标。通过实际训练,才能把最高级的操作技能传输给机器人,这也是以后要做的事。

戴盟团队的技术路线十分专一,这是我们的特长,能把最关键的技术和需求打通。具身技能能够赋予机器人得心应手的能力,以后希望和做大模型、大装备、本体和控制的团体结合在一起,实现领域互补。

Part.

03

机器人与世界模型

来杰丨星尘智能创始人兼CEO

我们对世界模型的追求,源于杨立昆的构想。我在百度和腾讯的经历让我认识到操作能力对数据收集和世界模型的重要性。人类进化中,直立行走解放了双手,对大脑发展有巨大影响,机器人也应如此。我们认为机器人正在走功能模型到世界模型的进化之路。我们的设计理念是“Design For AI”,即让机器人在真实世界中产生交互并收集数据,同时确保交互安全,减少伤害。

我们的机器人技术展现了顺畅的交互,这是我们对机器人温柔设定的体现,它有安全的保护机制,使世界模型可以在不损害自身、设备或对象的情况下收集数据和进行尝试。我们相信AI和机器人能形成正向循环,因此我们让机器人不断学习,达到AI和机器人最匹配的状态。仿人设计是“Design For AI”的关键,我们从视频中学习动作,如跳舞和打太极,这是我们理解观察并复现动作的第一步。

我们特别注重力、触、维度的信息收集和学习,希望给世界模型提供伴随着成长、在安全保护机制下拥有足够上限的机器人。世界模型能补全信息和预测结果,它需要满足当下常识性认知的小世界模型。我们发现这些能力不以模型化的方式出现,而是通过数据和模型训练产生。

Part.

04

仿生拉压体机器人原理与技术

任雷丨国家特聘专家,曼彻斯特大学终身教授,吉林大学唐敖庆讲席教授

我们的研究关注如何利用仿生技术克服当前人形机器人在安全性、操控性和能耗方面的限制。人形机器人在物理接触中安全性差,操控能力低,且能耗高,使其难以在家庭和生产中普及。为了应对这些挑战,团队开发了具有拉压体结构的仿生机器人,通过模仿人体的柔性和多自由度关节设计,使机器人更接近人类的自然运动模式。

拉压体机器人与传统刚性结构机器人存在诸多不同不同。传统机器人多使用刚性材料,设计的关节通常为铰链式,这种设计导致系统僵硬且能耗高。而人体90%的重量由柔软的组织组成,关节结构也更加复杂,允许多自由度的精细运动。受此启发,我们提出了“仿生拉压体”概念,以受拉的软组织和受压的硬组织结合构成高柔性的系统,使机器人在行走和操控上更接近人类。

在实际应用方面,团队的拉压体机器人已经实现了接近人类自然步态的行走,并显著降低了能耗,能耗仅为人体的1.38至2.14倍。此外,他们还开发了仿生拉压体灵巧手,这种手不仅具备变刚度和增大力作用空间的能力,还具备类似无极变速系统的柔性腱鞘设计,从而提升了抓握的灵活性和稳定性。

通过拉压体技术,团队成功解决了传统刚性结构在安全性、操控性和能耗上的瓶颈,为人形机器人的实际应用提供了新的思路。

Part.

05

圆桌:空间智能和世界模型

Q1. 林咏华:如何看待用于机器人的世界模型技术路线?

代季峰:世界模型对增强具身大模型至关重要,它能够提升技术上限,帮助模型进行轨迹预测和更正。尽管如此,视频信息的有效表征仍然是一个挑战,多模态的融合也非常关键。我们需要探索基础性技术,以实现具身大模型的潜力。

Q2. 林咏华:未来工业机器人打造空间智能或世界模型时,重要的定义或要点是什么?

陈睿:对于工业机器人而言,空间智能的关键在于精准性和泛化性。我们需要结合视觉和触觉信息来实现高成功率,同时保证行动的稳定性。物理空间的模型对于确保行动的正确性至关重要。工业机器人对于节拍和速度也有很高的要求。

Q3. 林咏华:如何看待将自动驾驶的经验迁移到机器人领域,构建空间智能或世界模型?

李弘扬:自动驾驶的经验确实可以迁移到机器人领域。端到端自动驾驶中的感知、决策一体化和人形机器人。我们关注的是行动的轨迹和恢复程度,而不仅仅是视频生成的逼真度。潜在世界模型可能是一个方向,它强调的是嵌入向量的长度,而非视频生成的逼真度。

Q4. 林咏华:用于通用机器人大脑的世界模型最应该具备的要点是什么?面临的最大挑战又是什么?

来杰:世界模型对机器人的赋能主要在于信息补充和预测未来动态。星尘智能致力于帮助世界模型收集数据、尝试和交互。我们的目标是打造一个能够持续成长的世界模型终端和载体。

Q5. 林咏华:要达到高度准确的3D模型生成,还有哪些差距?

黄思远:物理可控性是我们团队长期研究的方向。当前的生成模型在物理属性上的表现非常不足。我们需要一个物理意义上的指标来衡量模型的物理可解释性和可控性。此外,我们需要将交互成功率等指标加入到模型中,以实现更深入的交互。

Q6. 林咏华:算法突破、数据、算力或硬件,哪一项才是构建世界模型的最大挑战?

陈睿:我选择硬件。硬件的提升对于机器人完成任务至关重要,尤其是在传感和执行方面。

代季峰:我选择算法突破。深度学习算法尚未完全理解生物学习的机制,这是我们需要探索的未知领域。

来杰:我选择数据。数据的融合性和多模态性对于解释世界运行至关重要。

李弘扬:我选择数据。数据量不足是实现AGI的一大障碍,我们需要更低成本、更高效的数据采集方法。

黄思远:我也选择数据。场景级别的数据对于提升机器人的交互能力和世界模型的泛化能力至关重要。

Part.

06

What's Missing for Robotics Foundation Models?

Ted Xiao丨Google DeepMind研究科学家,RT1、2以及SayCan作者

过去十年,传统机器人采用“感知-计划-执行”的模式,通过感知系统识别环境状态,规划模块完成优化,执行模块控制动作。但近年来,部分模块被大规模「视觉-语言」模型取代,利用语言模型进行规划。然而,这些组件并非为机器人设计,输入输出通道带宽的狭窄限制了其潜力。

2024年及以后,机器人领域正逐渐突破模型间狭窄的带宽限制,例如像计算机视觉或语言建模那样,将多种任务视为相同的科学能力。我们需要进一步覆盖机器人完整的端到端技术栈。当前机器人系统需要基础模型的通用性和规模,尤其是在处理非结构化环境时。我们需探索机器人大模型的Scaling Law、高带宽训练以及可扩展评估方式。

RT-2等研究展示了通过结合互联网数据和多样化机器人数据的潜力,不仅提升了分布外任务的泛化性能,还通过多机器人数据集的整合实现了跨模型的正向迁移。然而,仍需克服训练数据过拟合及低级控制与高级推理不兼容等挑战。

机器人领域的“Scaling Law”研究仍在起步阶段。在充分理解数据与模型规模的重要性前,扩大数据收集可能并不明智。通过高带宽上下文和自然语言接口的研究,我们或许能为未来机器人学习开辟新的路径。

当下机器人领域的高级语言条件控制试图用语言表达物理世界的复杂性,但这未能涵盖成功操作现实世界所需的全部信息(如轨迹、旋转、抓取姿态和运动学约束等)。此外,我们利用视觉语言模型(VLM)理解机器人动作。如Pivot Prompting,将动作映射到图像中并标注,让VLM选择最优方案。此过程展现了VLM对动作因果关系的初步理解。同时,RT Hierarchy通过细化语言命令层次结构,提高了对复杂数据的学习能力,并允许专家干预高层规划,无需改动底层策略。

为实现更高带宽的机器人策略,这些方向证明了运动和轨迹表示的潜力。然而,我们仍需改进机器人领域的可扩展性评估。

当前对机器人基础模型的理解正在形成,但对高效评估和新数据收集方式的探索仍在早期阶段。未来,我们还要对机器人硬件操作复杂性和资源需求,进一步推进技术的规模化应用。

Part.

07

通用类人灵巧操作机器人

王鹏丨中科院自动化所研究员

十年前,我们主要关注的是工业和特种领域的专用操作能力,而现在我们希望机器人能具备通用操作能力,能在多样化场景中完成不同任务。特斯拉的机器人灵巧手就是一个例子,它从最初的11个关节自由度和6个驱动自由度,逐步发展到更高的自由度,以便适应更多任务需求。实现这种通用能力不仅依赖于硬件自由度的提升,还需要软硬结合,通过AI算法提升机器人的学习与适应性。

机器人通用能力的实现可以分为两大类:第一种是通过遥操作,利用人类操控提供实时数据;第二种是全自主操作。除此之外,还有一种人机融合方式,将人类的智能和机器智能结合,以提高任务的安全性和可靠性。这种方式在特种应用领域中尤为重要。

我们目前的研究集中在两个方面:一是提升硬件通用性,包括设计多自由度灵巧手和数据手套等末端机构;二是开发适配这些硬件的智能算法。为此,我们构建了一个从二指到多指的操作体系,使机器人具备对多种对象和复杂环境的适应能力。同时,我们还关注如何通过工具使用和人机协作进一步提升机器人的通用操作能力,使其能够在服务、工业等场景中更好地落地应用。

Part.

08

闭幕致辞

黄铁军丨智源研究院理事长

在闭幕致辞中,智源研究院理事长黄铁军指出,智能是环境的产物。人类智能来源于对环境的适应演化以及对世界的抽象。智能应该是大大小小各种形态的,不能变成一个完全统一的智能。具身智能的发展是必然趋势,无论是人形还是其他形态的机器人,未来需要庞大的产业群配套,促进具身智能的关键部件与材料,软件与硬件协同发展。

本文版权归智源社区所有

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0(167页)

3. 战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

4. 人工智能与物理学相遇的综述(86页)

5. 麦肯锡:全球难题,应对能源转型的现实问题(196页)

6. 欧米伽理论,智能科学视野下的万物理论新探索(50页报告)

7. 《美国反无人机系统未来趋势报告(2024-2029 年)》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015(94页)

11. CB Insights:未来变革者:2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页,美国防部首席数字和人工智能办公室(CDAO)

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP:2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察:引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起:整合人工智能、区块链技术与量子计算(研究报告,书)

19. OpenAI o1 评估:AGI 的机遇和挑战(280页)

20. 世界知识产权组织:2024 年全球创新指数(326页)

21. 美国白宫:国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索,243页

23. 中国信通院:量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能,144页

26. 联合国:《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织:2024团结在科学中,守卫地球系统的未来

28. 世界经济论坛 《量子技术助力社会发展:实现可持续发展目标》研究报告

29. 人工智能科学家:迈向全自动开放式科学发现

30. 欧盟:石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会:美国的数字身份之路研究报告

32. 麦肯锡:2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议:2024世界投资报告

34. 兰德:评估人工智能对国家安全和公共安全的影响

35. 兰德:2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织:2015-2022 年生物多样性与发展融资

37. ITIF:中国半导体创新能力研究报告

38. 英国皇家学会:数学未来计划, 数学和数据教育的新方法研究报告

39. 欧盟:10年人类大脑计划创新评估报告

40. GLG格理集团:2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国:2024为人类治理人工智能最终报告

43. 达信Marsh:2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询:2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价:准确性、无害性和公平性,223页pdf

46. 麦肯锡:2024世界能源产业展望

47. 世界经济论坛《太空:全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛:世界“技术先锋”名单100家公司名单

49. 世界经济论坛:2024绘制地球观测的未来:气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告(94页)

52. IQM :2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值(58页)

55. 2023-2024世界基础设施监测报告

56. 世界银行:2024世界发展报告,中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会:《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康:2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告(80页)

63. 国家互联网信息办公室:国家信息化发展报告2023年110页

64. 埃森哲:2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院:2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会:《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询:2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术:前景、危险和可能性》45页报告

71. 英国皇家学会报告:人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所:2024世界技趋势报告(980页)

73. 面向大规模脉冲神经网络:全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础:从经济学到不对称战争》2024最新94页报告

76. CBInsights:2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院:数据管理和使用:21 世纪的治理(2024),99页

78. 兰德智库:展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织:2024年世界知识产权报告:让创新政策促进发展

80. 全球灾难风险研究所:评估大型语言模型接管灾难的风险

81. 牛津马丁学院:人工智能风险国际科学评估的未来

82. 联合国贸易和发展署:2024世界投资报告

83. 兰德公司:人工智能军事应用的新风险和机遇

84. 英国皇家学会:AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论:从中国到世界从陆地到海洋-240902,98页

86. 中国信通院发布《大模型落地路线图研究报告(2024年)》

87. 星河智源:2024年无人驾驶技术全景报告35页

88. 星河智源:2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论:特斯拉领衔人形机器人的从1到N

90. 兰德:展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡:2024困难点:驾驭能源转型的物理现实(196页)

93. 《麻省理工科技评论》万字长文:什么是人工智能?

94. 软件与服务行业:从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院:中国数字经济发展研究报告2024年82页

96. CB Insights:2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能:全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准(8项)汇编

100. 麦肯锡2024技术趋势展望报告100页

上下滑动查看更多

来源:人工智能学家

相关推荐