QUICK REVIEW

[论文解读] Integrating independent and centralized multi-agent reinforcement learning for traffic signal network optimization

Zhi Zhang, Jiachen Yang|arXiv (Cornell University)|Sep 23, 2019

Traffic control and management参考文献 29被引用 24

一句话总结

本文提出QCOMBO，一种多智能体强化学习算法，通过一种新颖的正则化损失函数，将独立训练与集中式训练相结合，强制本地效用函数与全局动作价值函数保持一致，从而实现交通信号控制。该方法在多种交通状况和网络规模下均达到最先进性能，并展现出强大的泛化能力，证明了其在真实世界交通优化中的可扩展性与鲁棒性。

ABSTRACT

Traffic congestion in metropolitan areas is a world-wide problem that can be ameliorated by traffic lights that respond dynamically to real-time conditions. Recent studies applying deep reinforcement learning (RL) to optimize single traffic lights have shown significant improvement over conventional control. However, optimization of global traffic condition over a large road network fundamentally is a cooperative multi-agent control problem, for which single-agent RL is not suitable due to environment non-stationarity and infeasibility of optimizing over an exponential joint-action space. Motivated by these challenges, we propose QCOMBO, a simple yet effective multi-agent reinforcement learning (MARL) algorithm that combines the advantages of independent and centralized learning. We ensure scalability by selecting actions from individually optimized utility functions, which are shaped to maximize global performance via a novel consistency regularization loss between individual utility and a global action-value function. Experiments on diverse road topologies and traffic flow conditions in the SUMO traffic simulator show competitive performance of QCOMBO versus recent state-of-the-art MARL algorithms. We further show that policies trained on small sub-networks can effectively generalize to larger networks under different traffic flow conditions, providing empirical evidence for the suitability of MARL for intelligent traffic control.

研究动机与目标

为解决大规模交通信号网络中合作多智能体控制的挑战，其中独立学习因非平稳性而失效，而集中式学习因动作空间的组合爆炸而不可行。
开发一种可扩展的多智能体强化学习框架，利用本地观测实现高效动作选择，同时借助全局信息实现协调优化。
评估在小型子网络上训练的多智能体强化学习策略是否能有效泛化至更大、未见过的交通网络及动态交通条件。
探究深度多智能体强化学习策略在真实世界交通控制应用中的可迁移性与鲁棒性，特别是在模拟到真实环境以及模拟到更大环境的迁移场景下。

提出的方法

QCOMBO对每个智能体使用独立Q-learning，基于本地观测和本地奖励优化个体效用函数。
引入一个集中式的全局动作价值函数 $ Q(s, \mathbf{a}) $，基于全局奖励训练，以指导整体网络性能。
提出一种新颖的一致性正则化损失 $ L(Q, \{Q^n\}) $，强制全局动作价值函数与个体效用函数加权和之间保持对齐。
该正则化确保本地策略被引导以最大化全局性能，而无需在推理阶段进行联合动作优化。
该方法通过独立动作选择实现可扩展推理，同时通过带一致性正则化的集中式训练保持协调。
实验在SUMO交通模拟器中进行，涵盖多种道路拓扑结构与交通流条件，以评估性能与泛化能力。

实验结果

研究问题

RQ1结合独立与集中式训练的混合多智能体强化学习方法，是否能在交通信号控制中实现优于纯独立或纯集中式方法的性能？
RQ2在小型子网络上训练的多智能体强化学习策略，能否有效泛化至具有不同拓扑结构与交通流的更大、更复杂的交通网络？
RQ3在局部与全局价值函数之间引入一致性正则化损失，是否能提升动态交通条件下策略的泛化能力？
RQ4在一种交通条件下训练的策略，在部署到显著不同的交通流时，是否仍能保持高性能？
RQ5在有限智能体数量的集中式训练下，所生成的策略在多大程度上能有效扩展至更大规模的真实世界交通网络？

主要发现

在多种道路拓扑结构与交通条件下，QCOMBO在全局交通性能方面优于最先进的多智能体强化学习算法，包括COMA、QMIX、VDN、IAC和IDQN。
QCOMBO在未见交通流下的泛化能力表现出色：当t=2000和t=3000时交通条件发生变化，其性能仅出现轻微下降，而IDQN与QMIX则无法适应。
在一种交通流上训练的策略能有效泛化至两种不同的测试流，其中QCOMBO在所有测试条件下表现最一致，方差最低。
在$6\times 6$的更大网络（含36个智能体）上，QCOMBO训练的策略表现出极佳的泛化能力，性能可与专门针对该拓扑结构训练的策略相媲美甚至超越。
一致性正则化损失有效防止了对特定训练条件的过拟合，实现了对不同交通密度与流分布的鲁棒性与流不变性。
QCOMBO在部署于更大网络时仍能保持稳定且高水平的奖励，表明在小规模子网络上进行集中式训练可生成可扩展、可迁移的策略，适用于真实世界部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。