苹果16亿公里全仿真数据超人类,路径规划数据和云端算力价值归零

B站影视 欧美电影 2025-03-24 21:47 2

摘要:总结:苹果的GIGAFLOW是一项重大创新,再次凸显了强化学习的魅力,它的成功让人们减少对数据的依赖和对算力的依赖,虽然目前只用在路径规划上,也没有(也无法)实车测试,但如果能推广到更复杂的感知和预测领域,那将彻底改变目前自动驾驶格局,届时,无论车端算力还是云

总结:苹果的GIGAFLOW是一项重大创新,再次凸显了强化学习的魅力,它的成功让人们减少对数据的依赖和对算力的依赖,虽然目前只用在路径规划上,也没有(也无法)实车测试,但如果能推广到更复杂的感知和预测领域,那将彻底改变目前自动驾驶格局,届时,无论车端算力还是云端算力都将降低至少99%,对数据也完全不依赖。

虽然苹果不造车,但是苹果依然在研究自动驾驶,2025年2月苹果发表论文《Robust Autonomy Emerges from Self-Play》,足以颠覆目前自动驾驶研发体系,苹果在论文中提出GIGAFLOW仿真器,并利用此仿真器训练出来的大模型在CARLA、nuPlan和Waymax三大测试数据集上都取得第一名。最重要的是,苹果没有使用任何真实世界采集的数据,完全零样本,全部采用仿真合成数据,且训练成本低到难以置信,每百万公里仅仅花费5美元,仅需8张A100显卡就可以完成相当于人类16亿公里的驾驶训练。如果这种方式能够被证明切实可靠,那么真实数据和云端算力都将变得一文不值,这将完全颠覆目前的自动驾驶研发体系,自动驾驶领域迎来革命性突破。

论文作者共有12人,第一作者David Hafner,是CVPR 2023的技术主席。公开信息显示,还有三分之一都是苹果造车项目SPG (Special Project Group)成员,比如Stuart Bowers,原特斯拉工程副总裁,负责研发自动驾驶系统AutoPilot,2020年加入苹果,相关报道称,他在SPG项目负责自动驾驶算法。

Gigaflow成绩

图片来源:苹果

自我博弈是强化学习的一个类型,主要用在棋类游戏、卡牌游戏及视频游戏等。在围棋和国际象棋等棋类游戏中,自我博弈算法已被证明能够开发出超越人类的策略。以DeepMind的AlphaGo为例,通过自我博弈,AlphaGo能够在没有人类数据的情况下,独立学习并优化其围棋策略。在实时策略游戏(RTS)和多人在线战斗竞技场(MOBA)游戏中,自我博弈可以帮助智能体快速适应动态变化的环境。例如,OpenAI Five在Dota 2中的表现就是通过自我博弈和强化学习结合实现的,展现了AI在复杂游戏环境中的强大能力。

图片来源:网络

自我博弈的核心在于智能体与其过去的版本或自身的副本进行互动。通过这种方式,智能体可以在没有外部干预的情况下探索和改进其策略。这一过程有助于克服多智能体强化学习中的非平稳性问题,尤其是在竞争环境中,智能体的策略会随时间而变化,导致原有策略的效果不再稳定。在自我博弈的框架中,强化学习被建模为一个马尔可夫决策过程(MDP),其中状态、动作、转移和奖励的定义至关重要。智能体通过观察环境状态,选择基于策略的动作,并在执行后获得奖励,从而逐步优化其策略。

在多智能体强化学习(MARL)中,智能体间的相互依赖使得环境对每个智能体而言都呈现出非平稳特征。因此,自我博弈为解决这些内在挑战提供了一种优雅的解决方案。通过与自身的副本进行互动,智能体能够更有效地学习和适应,从而提高学习的稳定性和效率。苹果使用自我博弈下最常见的POSG算法,即“局部可观察随机博弈”的模型,可以建模多个智能体在动态不确定环境中的对抗和合作。在这个模型中它有N个智能体集合,每个智能体会在环境中执行相应的动作,执行的动作会导致这个环境发生一定的状态转移,然后每个智能体又会获得各自的观察。这是把不确定的多智能体对抗问题抽象成了动态可观察的随机博弈问题。这种算法也用于德州扑克,星际争霸。

Self-Play技术不依赖于外部数据集或标签,智能体通过自我对弈生成的数据进行训练,降低了对外部资源的依赖,增强了算法的自主性和灵活性。在Self-Play过程中,智能体之间的每一次对弈都会生成新的、具有挑战性的训练数据。这些数据不仅数量庞大,而且覆盖了广泛的策略空间和场景变化,有助于智能体学习到更加全面和深入的策略知识。

自我博弈技术让自动驾驶研发成本降低99%。

苹果将自我博弈技术引入自动驾驶,第一步先是建立一个交通模拟仿真器,可控和真实的交通模拟对于开发和验证自动驾驶车辆至关重要。传统的基于启发式的交通模型提供了灵活的控制,使车辆能够遵循特定的轨迹和交通规则。然而,数据驱动的方法生成了更真实和人性化的行为,提高了从模拟到现实交通的转移。不过没有任何交通模型同时提供可控性和真实性。目前比较先进的是条件扩散模型用于可控交通生成(CTG),允许用户在测试时控制轨迹的期望属性(例如,到达目标或遵循速度限制),同时通过强制动态保持真实性和物理可行性。关键技术思想是利用扩散建模和可微逻辑的最新进展,引导生成的轨迹满足使用信号时序逻辑(STL)定义的规则。

苹果从大模型角度出发,认为之前交通仿真器的缺点就是规模太小,每一小时苹果的Gigaflow有44亿种变换状态,720万公里行驶里程,10天仿真器训练相当于行驶了16亿公里。

苹果的仿真器地图与agent

图片来源:苹果

苹果的做法非常简单,它只有8张地图,如上图左边,这8张地图,随机变动,经过反转、剪裁和缩放生成3.84万个交通场景,1个场景最多允许150个agent,包括行人、卡车、轿车、骑车人等等,每个交通场景道路里程136公里,一路上会随机生成1到N个智能体,系统会要求智能体在自博弈中驶向各自的目的地。智能体的驾驶策略采用参数化,可以指定智能体的类型,驾驶风格有激进和谨慎可选。这些参数可在测试时修改,无需训练。智能体上路会通过观察局部环境,比如周边车辆的大小、位置和速度,优化自身驾驶策略,在自博弈中学会并道、无保护左转和绕过事故现场。

智能体模拟训练依然会引起交通事故,据苹果介绍频率大概在300万公里1次。作为对比,现实世界国内老司机的事故率大概在3.5万公里1次,当然现实世界的道路复杂度肯定要更高。

首先,GIGAFLOW在模拟过程中将大部分地图观测值预计算,并缓存在哈希空间,便于快速的查找和搜索。然后,在模拟训练过程中,通过简单计算会发现GIGAFLOW会同时模拟4800~576万个智能体,这些智能体会共享同一个策略神经网络,架构类似Deep Sets,每个模拟步骤仅需一次批处理的前向传递,显著改善了系统整体的吞吐量。最后,在更新参数时,GIGAFLOW采用了近端策略优化 (PPO)算法,这是OpenAI在2017年提出的算法,限制了策略更新幅度,能够简化训练过程。

苹果的训练策略和Agent

图片来源:苹果

MLP是最基本最简单的神经网络,MLP也被称为人工神经网络(Artificial Neural Network,ANN),在训练过程中,首先进行前向传播得到输出结果,然后根据输出结果与真实标签之间的差异计算损失函数(如均方误差、交叉熵等)。接着,从输出层开始,反向传播损失函数的梯度,计算每一层的权重和偏置的梯度,根据梯度更新权重和偏置,使得损失函数逐渐减小。通过不断重复前向传播和反向传播的过程,调整网络的参数,直到模型收敛或达到预设的训练轮数。即反向传播法,苹果Gigaflow包含6个MLP网络,分别是道路边界、车道线点、停止线、自车、其他agent、条件和目标。所有的agent都是一个policy。

图片来源:苹果

目标Goal半径是10米,目标速度是每秒3米,即10.8公里每小时,最大速度是每秒20米即72公里每小时,时间戳为66毫秒。

强化模型的奖励函数

图片来源:苹果

奖励函数是强化模型的核心,第一项x与y的欧式距离近似于轨迹的平均L2距离误差,这里误差半径是2-12米内即可,还有速度阈值低于10.8公里每小时,这个模拟器设置的速度值偏低。苹果的奖励函数只有三个,另一个是align,可能是指航向角。还有一个是速度,其余都是惩罚函数,首先是碰撞,碰撞还增加了速度值,速度越高,惩罚越狠。其次是脱离道路边界,再次是舒适度惩罚,这里的lat和long应该不是经纬度,可能是自由度的意思。再者是道路中心线,自然是越靠近中心越好,还有方向,不能逆行。最后还有停止线和时间戳。奖励函数比较简单,惩罚函数很复杂。

nuPlan上的成绩单

图片来源:苹果

中科院自动化所,理想汽车,清华大学,北京航空航天大学的论文PlanAgent用VLM做的成绩与这个基本相当,PlanAgent是93.26。

在CARLA上的成绩

图片来源:苹果

成绩非常亮眼,基于VLM的如浙大的WiseAD得分仅为69.88,苹果有绝对优势。

先来解释DS\RC\IP,

路线完成率(Route completion):指已完成的路线长度占总路线长度的百分比,用于衡量自动驾驶系统在给定路线上的行驶进展情况,体现其能否按照指令规划的路线前进并抵达目的地。基本上接近满分。违规分数(Infraction score) :当自动驾驶车辆发生碰撞或违反交通规则时,违规分数会根据相应的折扣因子降低。这个指标主要用于评估自动驾驶系统在行驶过程中的安全性和遵守交通规则的程度。驾驶分数(Driving score) :由路线完成率和违规分数相乘得出,综合描述了驾驶进展和安全性两个方面,是一个被广泛认可的用于对自动驾驶系统进行排名的指标。通过这个分数,可以更全面地评估不同自动驾驶系统在复杂场景下的综合性能。

Waymax上的成绩,基本上可算满分,比专家轨迹也就是人类驾驶技术还要好。

图片来源:苹果

训练成本低到不可思议,最后得出的模型尺寸也非常小,只有300万,消耗算力不到1TOPS。

不过苹果这个GIGAFLOW训练模型的成果也有一些问题。首先苹果完全分离了感知模块,换句话说,这里默认系统的感知是完全正确的,没有丝毫偏差,是百分百的满分,这显然不可能。这里的仿真系统完全忽略了感知系统可能导致的偏差和错误。再有就是如何将这个路径规划器与感知系统结合,这岂不是又回到传统分段式自动驾驶算法体系了。单独考虑路径规划是不对的,必须整体考虑。其次苹果是全仿真,如何保证训练出来的策略,在真实世界仍然能够取得好成绩,真实世界尤其是中国,交通规则异常重要,而这些仿真器几乎没有任何交通规则的内容,红绿灯(有离线红绿灯)、车道线、转弯让直行等等都没有,其主要考虑了碰撞,这在美国可以,在中国完全行不通,如何添加这些奖励函数将是异常困难的,提取并定位车道线不全是感知系统的任务,还有定位系统的任务。

苹果的GIGAFLOW是一项重大创新,再次凸显了强化学习的魅力,它的成功让人们减少对数据的依赖和对算力的依赖,虽然目前只用在路径规划上,也没有(也无法)实车测试,但是如果能推广到更复杂的感知和预测领域,那将彻底改变目前自动驾驶格局,届时,无论车端算力还是云端算力都降低至少99%,对数据也完全不依赖。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

来源:佐思汽车研究

相关推荐