摘要:当前,人形机器人已逐渐应用于情感交互、工业自动化、服务行业和研究探索等诸多领域,但不可忽视的是,其控制系统仍然依赖预设的状态机和固定策略优化,缺乏类人的认知自主能力。
当前,人形机器人已逐渐应用于情感交互、工业自动化、服务行业和研究探索等诸多领域,但不可忽视的是,其控制系统仍然依赖预设的状态机和固定策略优化,缺乏类人的认知自主能力。
例如,美国波士顿动力公司的 Atlas 机器人、日本 PAL 机器人公司的 Talos 机器人、美国 Agility Robotics 公司的 Digit 机器人均采用基于模型预测控制和任务特定的强化学习,其在面对复杂场景变化时,仍需依赖于静态预先设定的策略,从而难以进行自主学习和动态实时决策。
这些技术支持机器人模仿人类执行重复性任务,但其感知与执行能力不足以弥补在思维、规划和决策等高级认知能力上的缺陷。尽管部分研究探索了多模态数据融合(视觉、听觉、触觉),但由于跨模态对齐技术的局限性,人形机器人在高动态环境下的语义理解和连贯推理仍存在挑战。
那么,是否可将机器人置于动态环境中,让它自主感知不同的物体和信息,并做出合理的预处理和决策呢?这是一个巨大的挑战,也是当前机器人研究的重点方向。
为解决该问题,就读于马来西亚思特雅大学(UCSI University)的博士研究生王立博在发表于预印本网站 arXiv 的《多场景推理:解锁人形机器人在多模态理解中的认知自主性》(Multi-Scenario Reasoning:Unlocking Cognitive Autonomy in Humanoid Robots for Multimodal Understanding)的论文中,提出多场景推理(MSR,Multi-Scenario Reasoning)控制系统的框架 [1]。
图丨相关论文(来源:arXiv)
MSR 旨在实现高效的跨模态感知,利用稀疏注意力过滤与记忆增强推理机制,使机器人能够在多变环境中,进行高精度信息提取与推理,避免现有系统因静态预训练数据而产生的响应不连贯问题。
为提升仿人机器人在不确定环境中的自主适应能力,该研究以情境认知理论为基础,模拟人类大脑在复杂环境下的跨模态语义整合、情境分析和动态决策能力。
不同于传统依赖静态预训练模型或单一模态数据的认知架构,MSR 通过注意力的优先级(Attention-Based Prioritization)、记忆增强推理(Memory-Augmented Reasoning)和行动决策建模(Action-Decision Modeling)等关键模块,实现机器人在视觉、听觉和触觉数据融合上的高效性,以解决当前跨模态理解的瓶颈问题。
同时,作者发展了 Sim2Real 通过结合场景表征和情境信息、注意力、记忆和反馈机制,来优化人形机器人适应在不同场景的动态自适应能力。
图丨多场景推理架构(来源:arXiv)
人脑具有短期记忆和长期记忆,目前多数研究表明机器人已逐步具备短期记忆能力,但它在长期记忆方面的能力仍然有待提升。当前多数机器人仍依赖工程师预设的指令,缺乏自主性和灵活性,其任务执行效果往往受限于静态预设程序。
为了突破这一局限,需要开发一种能够根据环境动态生成变形指令的控制系统。这样的系统需要具备强大的感知能力,能够综合分析环境因素并做出合理的决策。
该研究在多场景理解、机器人的认知系统设计和自适应力开发等方向具有应用前景。
第一,多场景理解:从长思维链到动态思维链。
静态环境下任务可预设定,但在动态环境下机器人需要自主感知和推理,这种推理能力至关重要。
借鉴长思维链(Long Chain-of-Thought)方法虽可行,但由于静态的预设定同样可能造成产生冗余计算和资源耗费。相比之下,该研究中的动态思维(Dynamic Chain-of-Thought)通过自适应推理触发机制,结合自适应剪枝原理,能够识别关键语义,仅在必要情况下延展推理链,以优化计算资源。
例如,“微波炉禁用铁器”这类具有明确因果关系的知识无需推理,可直接根据常识生成答案。动态思维链展示出针对 token 的重要性进行剪枝(pruning),本质上就是筛选最关键的语义,从而决定是否推理以及步骤长度。
对于显著减少人形机器人控制系统计算资源的消耗和实现精准场景识别来说,筛选是推理路径的关键环节。
图丨王立博 (来源:王立博)
第二,认知系统设计:模拟人脑动态决策。
基于认知科学理论,该研究构建了“感知-推理-决策-执行”的完整控制链路。通过多模态信息融合解析环境数据,利用自适应推理模块动态调整决策流程,并最终通过“信号-动作映射”将推理结果转化为控制指令,以实现模拟人脑的自主决策。
第三,自适应力开发:从物理调参到动态迁移。
传统方法通过调整物理数据获取方式,但这种方式较为低效。目前,控制系统需要一种让机器人摆脱静态训练的局限,突破在模拟-现实域迁移方面的策略泛化不足的技术瓶颈。针对自适应域随机化依赖静态预训练导致机器人在复杂任务中的推理与决策能力受限的问题,这项研究提出了目标域优化。
该框架通过因果推理和策略自适应调整优化机器人在模拟-现实迁移(Sim-to-Real Transfer)中的策略泛化能力,提高其在高动态环境下的执行稳定性。
通过传感解析、因果推理、策略自适应和跨域泛化优化机器人,在现实环境的适应性。传感感知系统采用稀疏注意力和特征金字塔提取分层解析多模态数据,来提高环境理解。
动态因果推理通过预测误差监控和因果推理引擎调整状态-行为映射,优化实时决策。自适应策略优化结合策略调整引擎与上下文参数调优,动态调整策略。相比自适应域随机化,目标域优化在因果推理和跨场景适应,对于复杂环境中的泛化能力方面更具显著效果。
图丨目标域优化框架(来源:TechRxiv)
同时,该研究中所提出机器人的发展不应仅是为了替代人类从事低端工作,而应更多地聚焦于那些对人类来说危险或难以完成的任务。“我们需要确保机器人的开发能够为社会生产带来积极影响,而非从事减少人类就业资源的行为。”王立博说。
例如,在高空建筑施工中,机器人凭借精准判断和动态环境适应能力,能更安全高效地完成任务;在医疗领域,机器人手术精确度高于人类医生,尤其在精细操作和高度稳定性手术中优势明显;在地震废墟、深海或太空等极端环境中,勘探机器人和救援机器人可在那些人类难以到达或存在安全风险的环境中工作。这些应用场景表明,机器人可承担更多人类难以完成或危险的工作,让人类生活更安全便捷。
据介绍,王立博接下来的设计是致力于构建与 Transformer 原理不同的新型架构“Defierithos”。特别是通过“自共振场”技术的开发替代,它不同于 Transformer 的自注意力机制依赖于计算每一个 token 对其他所有 token 的关系。这使得新架构一定程度上避免了计算复杂度和内存消耗呈二次增长,尤其在处理长序列时有效捕捉远距离的依赖。
此外,他还模拟人类超级大脑运行的原理,尝试采用自共振场通过子频带分解(Subband Decomposition)与波干涉(Wave Interference)的方式,将信息以波形的形式持续流动、进行迭代干涉、减少必要的计算量,并通过动态调整局部波干涉精确模拟复杂的长程依赖。
相比于 Transformer 需要依赖昂贵的全连接矩阵运算,自共振场不仅降低计算成本,而且能以稀疏并行的方式,处理更加复杂且不容易被 Transformer 捕捉的微妙特征。王立博希望,能够突破 Transformer 变体无法从根本上避免的内存消耗与长序列建模的瓶颈。
参考资料:
1.https://doi.org/10.48550/arXiv.2412.20429
2.https://www.techrxiv.org/users/877969/articles/1275276-defierithos-the-lonely-warrior-rises-from-resonance
运营/排版:何晨龙
来源:DeepTech深科技一点号