摘要:国产具身大模型Robotics Diffusion Transformer (RDT) 1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION)是一个基于Diffusion Transformers
国产具身大模型
国产具身大模型Robotics Diffusion Transformer (RDT) 1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION)是一个基于Diffusion Transformers (DiTs)的双臂操作扩散模型,其模型架构基于视频生成架构DiT改造而成。RDT支持语言指令、图像序列以及机器人状态序列等多种输入,并采用了先预训练后微调的训练方式。该模型在参数规模上达到了10亿(1B),在机器人领域可以称之为大模型。
当前,机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则 “束手无策”。
而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”,使其能摆脱人类的操控,自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”,从 “单臂” 变为 “双臂”,是目前运动控制水平最接近人类的机器人小脑之一。
更惊喜的是,清华团队已将 RDT 的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源 RDT 能极大加速机器人研发和产业化进程。
项目主页:https://rdt-robotics.github.io/rdt-robotics论文链接:https://arxiv.org/pdf/2410.07864论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation效果展示
1. 灵巧操作:“机器人遛狗” 竟成现实
在 RDT 的指挥下,机器人能灵巧地握住长度不到 2cm 的迷你摇杆,控制机器狗走出完美直线。
而如果把 RDT 换成其他模型,就会导致机器狗会走弯路、甚至见墙就撞。
没办法,控制精度不足!
2. 指令遵循:善解人意的倒水大师
RDT 能充分理解并遵循人类的语言指令。
倒水大师 RDT,让倒 1/3 的水就倒 1/3 的水,让倒 2/3 就倒 2/3,简直分毫不差!
值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒。
RDT 完全是凭借自己的泛化性,准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。
与之相对,其他模型会指挥机器人倒得过多或过少,甚至尴尬洒水。
3. 未见物体与场景:自信地与未知共舞
谁说人类才是唯一能适应环境变化的智能体?RDT 也能轻松做到。
清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水...
变换任务对象和环境都难不倒它。
4. 少样本学习:一点就通的高材生
更厉害的是,RDT 有很强的领悟力,是机器人模型中的“学霸”。
教会 RDT 叠衣服仅需演示 1 遍,而其他模型要重复教几十遍才能勉强学会。
力控机械臂
上方用到的机械臂就是这款力控机械臂,它是一款专为具身智能研发而设计的平台。这款机械臂轻盈而强大,设计灵感源自人类手臂的灵动与自如,完美融合了力控支持、VR遥操作技术、高强灵活性、坚固机身结构、全自主控制模型以及媲美人类的抓取速度等多重优势。
力控机械臂拥有6个自由度,实现灵活多变的操作,控制类型则巧妙结合了位置与力控制,额定功率稳定维持在500瓦,仅需24V 15A的电源供应,即可高效运行。操作系统则选用了广泛应用的Ubuntu,确保了兼容性与稳定性。此外,力控机械臂还配备了先进的力反馈与碰撞检测系统,为每一次操作提供了坚实的安全保障与无与伦比的精确度。
在负载能力方面,力控机械臂的额定负载高达3千克,即便在极端条件下,如末端承受7千克负载并持续一分钟的测试中,力控机械臂依然展现出了卓越的性能与稳定性,彰显了其强大的实力与可靠性。
来源:最亮的星ab