QUICK REVIEW

[논문 리뷰] Integrating independent and centralized multi-agent reinforcement learning for traffic signal network optimization

Zhi Zhang, Jiachen Yang|arXiv (Cornell University)|2019. 09. 23.

Traffic control and management참고 문헌 29인용 수 24

한 줄 요약

이 논문은 QCOMBO를 제안하며, 지역적 유틸리티 함수와 전역 행동가치 함수 사이의 일관성을 보장하기 위해 새로운 정규화 손실을 도입함으로써 독립적이고 중심화된 훈련을 통합하는 다중 에이전트 강화학습 알고리즘을 개발한다. 이 방법은 다양한 교통 조건과 네트워크 크기에서 최신 기술 수준의 성능과 뛰어난 일반화 능력을 보이며, 실세계 교통 최적화에 대한 확장성과 강건성을 입증한다.

ABSTRACT

Traffic congestion in metropolitan areas is a world-wide problem that can be ameliorated by traffic lights that respond dynamically to real-time conditions. Recent studies applying deep reinforcement learning (RL) to optimize single traffic lights have shown significant improvement over conventional control. However, optimization of global traffic condition over a large road network fundamentally is a cooperative multi-agent control problem, for which single-agent RL is not suitable due to environment non-stationarity and infeasibility of optimizing over an exponential joint-action space. Motivated by these challenges, we propose QCOMBO, a simple yet effective multi-agent reinforcement learning (MARL) algorithm that combines the advantages of independent and centralized learning. We ensure scalability by selecting actions from individually optimized utility functions, which are shaped to maximize global performance via a novel consistency regularization loss between individual utility and a global action-value function. Experiments on diverse road topologies and traffic flow conditions in the SUMO traffic simulator show competitive performance of QCOMBO versus recent state-of-the-art MARL algorithms. We further show that policies trained on small sub-networks can effectively generalize to larger networks under different traffic flow conditions, providing empirical evidence for the suitability of MARL for intelligent traffic control.

연구 동기 및 목표

대규모 교통 신호 네트워크에서 비정상성으로 인해 독립적 학습이 실패하고, 조합적 행동 공간으로 인해 중심화된 학습이 비현실적이 되는 협동 다중 에이전트 제어 문제를 해결하기 위해.
지역 관측을 통해 효율적인 행동 선택을 하고, 전역 정보를 통해 조율된 최적화를 달성하는 확장 가능한 다중 에이전트 강화학습 프레임워크를 개발하기 위해.
소규모 하위 네트워크에서 훈련된 다중 에이전트 강화학습 정책이 더 큰, 알려지지 않은 교통 네트워크와 동적인 교통 조건으로 일반화되는지 평가하기 위해.
특히 sim-to-real 및 sim-to-larger-environment 전이 조건에서 실세계 교통 제어 응용 분야에서 딥 다중 에이전트 강화학습 정책의 이식 가능성과 강건성을 조사하기 위해.

제안 방법

QCOMBO는 각 에이전트가 지역 관측과 지역 보상에 기반한 개별 유틸리티 함수를 최적화하기 위해 독립 Q-학습을 사용한다.
전역 보상에 기반해 훈련되는 중심화된 전역 행동가치 함수 $ Q(s, \mathbf{a}) $ 를 도입하여 전체 네트워크 성능을 안내한다.
새로운 일관성 정규화 손실 $ L(Q, \{Q^n\}) $ 을 통해 전역 행동가치 함수와 개별 유틸리티 함수의 가중합 간의 일치를 강제한다.
정규화는 추론 시 연합 행동 최적화가 필요 없이도 지역 정책가 전역 성능을 극대화하도록 유도한다.
독립적 행동 선택을 통해 확장 가능한 추론을 가능하게 하면서도, 정규화된 일관성과 함께 중심화된 훈련을 통해 조율를 유지한다.
성능와 일반화 능력을 평가하기 위해, 다양한 도로 구조와 교통 흐름 조건에서 SUMO 교통 시뮬레이터를 기반으로 실험을 수행한다.

실험 결과

연구 질문

RQ1독립적이고 중심화된 훈련을 조합한 하이브리드 다중 에이전트 강화학습 접근법이 교통 신호 제어에서 순수 독립적 또는 중심화된 방법보다 더 뛰어난 성능을 달성할 수 있는가?
RQ2소규모 하위 네트워크에서 훈련된 다중 에이전트 강화학습 정책이 서로 다른 구조와 교통 흐름을 가진 더 큰, 더 복잡한 교통 네트워크로 일반화되는 정도는 어떠한가?
RQ3지역 및 전역 가치 함수 간의 일관성 정규화 손실을 도입함으로써, 동적인 교통 조건 하에서 정책의 일반화 능력이 향상되는가?
RQ4한 교통 조건에서 훈련된 정책가 상당히 다른 교통 흐름 조건에서 배포되었을 때도 높은 성능를 유지할 수 있는가?
RQ5제한된 수의 에이전트로 중심화된 훈련을 수행할 경우, 실세계의 더 큰 교통 네트워크로 효과적으로 확장되는 정책을 생성할 수 있는가?

주요 결과

QCOMBO는 다양한 도로 구조와 교통 조건에서 COMA, QMIX, VDN, IAC, IDQN과 같은 최신 기술 수준의 다중 에이전트 강화학습 알고리즘을 모두 초월하는 전역 교통 성능을 기록한다.
QCOMBO는 알려지지 않은 교통 흐름으로의 일반화 능력이 뛰어나며, t=2000과 t=3000에서 교통 조건이 변화하더라도 성능 저하가 최소화되어 유지된다. 반면 IDQN과 QMIX는 적응하지 못하고 실패한다.
한 가지 교통 흐름에서 훈련된 정책가 두 가지 다른 테스트 흐름으로 일반화되며, QCOMBO는 모든 테스트 조건에서 가장 일관되고 변동성이 가장 낮은 성능를 보인다.
QCOMBO로 훈련된 정책는 36개의 에이전트를 가진 더 큰 $6\times 6$ 네트워크로도 놀랍게 잘 일반화되며, 해당 구조에 특별히 훈련된 정책와 비교해도 성능이 유사하거나 이를 초월한다.
일관성 정규화 손실은 특정 훈련 조건에 대한 과적합을 방지하여, 다양한 교통 밀도와 흐름 분포에서 흐름 불변성과 강건성을 보장한다.
QCOMBO는 더 큰 네트워크에 배포되었을 때도 안정적이고 높은 보상을 유지하며, 소규모 하위 네트워크에서 중심화된 훈련을 통해 실세계 배포에 적합하고 확장 가능한 정책을 생성할 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.