QUICK REVIEW

[논문 리뷰] AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control

Afshin Oroojlooy, Mohammadreza Nazari|arXiv (Cornell University)|2020. 10. 12.

Traffic control and management인용 수 41

한 줄 요약

AttendLight는 다양한 토폴로지, 차선, 페이즈를 가진 교차로에서 신호등을 제어하기 위해 두 가지 주의 메커니즘을 갖춘 범용 RL 모델을 학습시키며, 단일 환경과 다중 환경 체제에서 강한 성능을 달성합니다.

ABSTRACT

We propose AttendLight, an end-to-end Reinforcement Learning (RL) algorithm for the problem of traffic signal control. Previous approaches for this problem have the shortcoming that they require training for each new intersection with a different structure or traffic flow distribution. AttendLight solves this issue by training a single, universal model for intersections with any number of roads, lanes, phases (possible signals), and traffic flow. To this end, we propose a deep RL model which incorporates two attention models. The first attention model is introduced to handle different numbers of roads-lanes; and the second attention model is intended for enabling decision-making with any number of phases in an intersection. As a result, our proposed model works for any intersection configuration, as long as a similar configuration is represented in the training set. Experiments were conducted with both synthetic and real-world standard benchmark data-sets. The results we show cover intersections with three or four approaching roads; one-directional/bi-directional roads with one, two, and three lanes; different number of phases; and different traffic flows. We consider two regimes: (i) single-environment training, single-deployment, and (ii) multi-environment training, multi-deployment. AttendLight outperforms both classical and other RL-based approaches on all cases in both regimes.

연구 동기 및 목표

모든 토폴로지와 교통 패턴을 가진 교차로에 적용 가능한 보편적 교통 신호 제어 정책을 모티베이트하고 개발한다.
가변 입력 및 출력을 다루기 위해 주의 메커니즘을 사용함으로써 새로운 교차로마다 정책 재설계나 재학습이 필요한 상황을 제거한다.
단일 학습 모델이 합성 및 실제 데이터셋에서 전통적 및 RL 기반 기준선보다 더 높은 성능을 보임을 입증한다.

제안 방법

상태 주의력은 페이즈 표현에, 액션 주의력은 다음 페이즈 결정에 사용되는 두 가지 주의 메커니즘을 갖춘 AttendLight를 도입한다.
차선 수준의 트래픽 특성을 Conv1D 임베딩 함수로 임베딩하고, 참가 차선들의 가중합으로 페이즈 표현 z_p^t를 계산한다.
LSTM을 사용하여 순차적 페이즈 정보를 포착하고, 페이즈 표현에 대한 액션 주의를 통해 다음 페이즈 정책을 도출한다.
단일-env(같은 교차로에서 학습 및 배치)와 다중-env(여러 교차로에서 학습하고 널리 배포)라는 두 체제에서 분산 감소 REINFORCE 알고리즘으로 학습한다.
상태 s^t를 차선 특성 집합 s_l^t로 나타내고, 도로 교차로 압력을 음수로 보상으로 사용하여 이동 시간 최소화를 근사한다.

실험 결과

연구 질문

RQ1다양한 도로 수, 차선 수, 페이즈를 가진 교차로에서 단일, 보편 RL 모델이 높은 품질의 트래픽 신호 제어를 달성할 수 있는가?
RQ2AttendLight가 다수의 교차로에서의 학습으로 보지 않은 구성에 일반화하여 재학습 없이도 적용될 수 있는가?
RQ3단일-환경 대 다중-환경 학습 체제에서 AttendLight의 성능은 전통적 기준선과 RL 기반 기준선에 비해 어떠한가?
RQ4제안된 주의 메커니즘이 입력/출력 크기의 가변성을 TSCP에서 얼마나 효과적으로 처리하는가?
RQ5일부 샷 보정이 보편 정책을 특정 교차로에 적응시키는 데 효과적인가?

주요 결과

AttendLight는 단일-env 및 다중-env 체제에서 다양한 교차로에서 고전적 및 여러 RL 기반 기준선보다 우수한 성능을 보인다.
단일-env 체제에서 112개 사례에서 큰 개선을 달성(예: FixedTime 대비 46%, MaxPressure 대비 39%, SOTL 대비 34%, DQTSC-M 대비 16%, FRAP 대비 9%).
다중-env 체제에서 학습 대비 테스트 세트에서 약 13-15% ATT 열화가 나타나 교차로 간 우수한 일반화 및 지식 공유를 시사한다.
112개 교차로에 걸쳐 다중-env 정책이 일반적으로 FixedTime, MaxPressure, SOTL보다 우수하고 FRAP와 경쟁적이며 종종 DQTSC-M보다 낫다.
몇 샷 보정은 200 학습 에피소드 후 다중-env와 단일-env 간의 격차를 15%에서 5%로, 1000 에피소드 후에는 3%로 줄이는 데 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.