摘要:在当今高度复杂的技术环境中,如何对大规模网络系统进行高效控制已成为一大挑战。从交通信号灯优化到电力网络调度,每个场景都要求 AI 具备卓越的适应性和可扩展性。然而,传统的集中式方法往往受限于高通信成本和计算复杂度,难以满足实际需求。近期发表在 Nature M
关键词:强化学习,大规模网络控制,多智能体,马尔可夫决策过程,分布式方法
论文题目:Efficient and scalable reinforcement learning for large-scale network control 论文地址:https://www.nature.com/articles/s42256-024-00879-7 期刊名称:Nature Machine Intelligence在当今高度复杂的技术环境中,如何对大规模网络系统进行高效控制已成为一大挑战。从交通信号灯优化到电力网络调度,每个场景都要求 AI 具备卓越的适应性和可扩展性。然而,传统的集中式方法往往受限于高通信成本和计算复杂度,难以满足实际需求。近期发表在 Nature Machine Intelligence 上的一篇研究,提出了一种基于模型的分布式策略优化框架,以多智能体强化学习(MARL)为核心,通过分布式学习和部分可观测马尔可夫决策过程(MDP)的创新应用,实现对大规模网络系统的高效控制。
传统集中式学习具有高通信成本、高计算复杂度和实际适用性差等局限,相较之下,分布式方法通过邻域通信和局部决策可以降低系统开销,并增强在复杂环境中的适应能力。文章首先提出的是 ξ 依赖网络MDP模型,其中 ξ 衡量了系统局部动态与全局动态的偏差,为网络系统建模提供了理论基础。基于此,采用分布式的局部模型学习方法,各智能体根据邻域信息预测下一时刻的状态和奖励,无需全局信息,降低通信成本,策略更新使用近端策略优化(PPO)实现。为减少模型误差的累积,框架还引入了短视回滚方法,用多个短时间跨度的预测代替长时间预测,提升模型的稳定性。研究者在覆盖多领域的大规模网络系统中对这一框架进行了验证,包括交通信号灯控制、电网调度、疫情网络和车辆队列管理等方面,该框架的表现均超越了现有方法,展现了卓越的可拓展性。
综上,研究揭示了AI系统在大规模网络中实现可扩展决策的关键路径:局部学习与全局协同的平衡。这一方法为交通、能源、医疗等领域的智能系统设计提供了新的可能。此外,研究还提出未来可以通过引入信息熵理论优化系统拓扑,进一步提升算法的效率和适用性。
图 1. 研究方法架构,不同MDP之间的区别和联系,以及模型学习过程。(a) 算法包括分布式策略、价值函数、模型、模型缓冲和环境缓冲部分。红色箭头突出了主要步骤,包括从模型和实际环境中对策略和模型学习进行经验采样。模型框架采用嵌入层进行状态和动作特征提取,然后基于图网络拓扑进行合并。(b) 网络MDP、原始MDP和模型MDP中不同p的区别和联系。(c) 不同的D构成三角不等式关系,模型学习的主要目标是最小化独立逼近误差,以减小模型误差与依赖偏差之间的差异。(d) 在现实世界的复杂系统中,我们证明了ξ的值都是小正值。(e) 模型学习的过程包括从模型缓冲区中采样轨迹进行多次迭代学习。
图 2. (a) 摩纳哥交通网络(部分)有28个不同的交通灯,纽约交通网络(部分)有432个交通灯。(b) 自适应交通信号控制任务关键评价指标。在前3000秒内,系统不断承载车辆通行,导致交叉口的交通压力逐渐增加,平均排队长度逐渐增加。该框架很好地清除了交通拥堵,使得电网的最大平均排队长度不超过6辆左右,摩纳哥2辆,纽约1辆,低于其他算法。在3000秒的车辆加载后,该框架可以将电网中每辆车的平均交叉口延迟维持在250秒左右,摩纳哥中每辆车300秒,纽约中每辆车10秒,该框架可防止延迟增加。在不同时期,该分布式框架实现了车辆到达最多、停车最少和平均速度稳定。
彭晨| 编译
复杂系统自动建模读书会第二季
详情请见:
1.
2.
3.
4.
5.
6.
来源:科技浪潮之巅