摘要:昨晚深夜,人形机器人领域的“老玩家”波士顿动力展示了电动Atlas的新能力。一个很大的不同,这次它有了强化学习(RL,reinforcement learning)加持来用于其训练,奉上视频:
昨晚深夜,人形机器人领域的“老玩家”波士顿动力展示了电动Atlas的新能力。一个很大的不同,这次它有了强化学习(RL,reinforcement learning)加持来用于其训练,奉上视频:
- 文章信息 -
本文由e-works祖哥综合报道,素材源于波士顿动力、RAI研究所。
波士顿动力(Boston Dynamics)是全球移动机器人领域的领导者,以其Atlas人形机器人闻名。Atlas被广泛认为是世界上最具动态能力的人形机器人,能够执行复杂的动作,如奔跑、跳跃、跳舞以及空翻等,想必大家此前都多少看到过。
波士顿动力在上面最新视频中展示了与「RAI研究所」合作的初步成果,电动版 Atlas在视频中进行更加“类人”的行走、奔跑动作:
还首次展示了人模人样的爬行动作:
随后表演了一系列复杂的体操动作,以及这些动作到站立的丝滑过渡。这些行为是通过强化学习(RL)训练的,参考了人类动作捕捉和动画数据。
这意味着Atlas不是通过预先编程的动作序列来行动,而是通过与环境的交互和试错来学习如何完成任务。强化学习的训练过程参考了人类动作捕捉(Motion Capture)数据和动画(Animation)。这表明波士顿动力在尝试让Atlas的动作更接近人类的自然运动方式,而不仅仅是机械式的执行。
据合作机构RAI研究所介绍:强化学习被用于加速 Atlas 人形机器人的行为训练。其核心是一个基于物理模拟的仿真器,用于生成多种动作的训练数据。控制策略能够跟踪并调整经过重定向的人类运动数据。每个动作都是基于约 1.5 亿次 模拟运行的数据创建的,并且可以 零样本迁移 到真实硬件上。这项工作是RAI 研究所与BostonDynamics 合作的一部分。
就在上个月(2025年2月5日),波士顿动力宣布与机器人与人工智能研究所(RAI Institute)合作,聚焦于通过强化学习技术推进Atlas的发展。主要在以下三个方面:①模拟到现实(Sim-to-Real)技术;②整体机动操作(Whole Body Loco-Manipulation);③全身体接触策略(Full-Body Contact Strategies)。
这里面值得一提的细节是,RAI研究所的执行董事Marc Raibert正是波士顿动力的创始人。这一特殊身份使得两者的合作显得非常顺理成章,甚至可以说是水到渠成。
图源:Boston.com
Marc Raibert作为两家机构的核心人物,他对机器人技术的发展方向、研究重点以及未来应用场景有着深刻的理解和一致的愿景。这为波士顿动力和RAI Institute的合作奠定了坚实的基础。
波士顿动力在机器人硬件设计、制造和运动控制方面拥有世界领先的技术实力,而RAI Institute则专注于人工智能、机器学习等前沿算法的研究。两者的合作可以实现优势互补,将最先进的AI技术应用于最先进的机器人平台,从而产生1+1>2的协同效应。
那么何谓强化学习?今年早些时候DeepSeek-R1 发布,让这个词真正的进入了普通大众的视野。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
强化学习(Reinforcement Learning, RL)可以理解为“试错 + 奖励”的学习方式。它不像死记硬背的学习(监督学习),而是靠不断尝试、犯错、获得奖励,最终学会做出更好的决策。列举两个小案例:
案例 1:打游戏(玩《超级马里奥》)
比如你第一次玩《超级马里奥》,什么都不懂,但可以乱按键试试看(探索)——
• 走路 ✅ → 没事,继续走。
• 跳起来 ✅ → 躲开障碍物,得分!
• 撞到怪物 ❌ → Game Over,下次躲开!
经过无数次尝试,你学会了如何玩游戏,并逐步优化策略,最终通关! 这就是强化学习的过程。
案例 2:教孩子吃饭
小孩第一次用勺子吃饭,可能会搞得满脸都是,但如果成功把食物送进嘴里,家长会夸奖(奖励)——
• 勺子掉地上 ❌ → 没有奖励(失败)。
• 勺子放到嘴里 ✅ → 家长鼓励(奖励)。
• 多练几次后,小孩学会了正确吃饭的方法(学到策略)。
通过不断尝试 + 反馈,孩子学会了吃饭的方法,这就是强化学习的逻辑。
波士顿动力这次展示的电动Atlas,最大亮点在于将强化学习、人类动作捕捉和动画技术相结合,实现了更复杂、更流畅、更自然的运动控制。这不仅是技术上的一个重要阶段成果,也为未来机器人在现实世界中的应用开辟了更广阔的可能性。
来源:数字化企业