Skip to main content
QUICK REVIEW

[논문 리뷰] AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control

Afshin Oroojlooy, Mohammadreza Nazari|arXiv (Cornell University)|2020. 10. 12.
Traffic control and management인용 수 41
한 줄 요약

AttendLight는 다양한 토폴로지, 차선, 페이즈를 가진 교차로에서 신호등을 제어하기 위해 두 가지 주의 메커니즘을 갖춘 범용 RL 모델을 학습시키며, 단일 환경과 다중 환경 체제에서 강한 성능을 달성합니다.

ABSTRACT

We propose AttendLight, an end-to-end Reinforcement Learning (RL) algorithm for the problem of traffic signal control. Previous approaches for this problem have the shortcoming that they require training for each new intersection with a different structure or traffic flow distribution. AttendLight solves this issue by training a single, universal model for intersections with any number of roads, lanes, phases (possible signals), and traffic flow. To this end, we propose a deep RL model which incorporates two attention models. The first attention model is introduced to handle different numbers of roads-lanes; and the second attention model is intended for enabling decision-making with any number of phases in an intersection. As a result, our proposed model works for any intersection configuration, as long as a similar configuration is represented in the training set. Experiments were conducted with both synthetic and real-world standard benchmark data-sets. The results we show cover intersections with three or four approaching roads; one-directional/bi-directional roads with one, two, and three lanes; different number of phases; and different traffic flows. We consider two regimes: (i) single-environment training, single-deployment, and (ii) multi-environment training, multi-deployment. AttendLight outperforms both classical and other RL-based approaches on all cases in both regimes.

연구 동기 및 목표

  • 모든 토폴로지와 교통 패턴을 가진 교차로에 적용 가능한 보편적 교통 신호 제어 정책을 모티베이트하고 개발한다.
  • 가변 입력 및 출력을 다루기 위해 주의 메커니즘을 사용함으로써 새로운 교차로마다 정책 재설계나 재학습이 필요한 상황을 제거한다.
  • 단일 학습 모델이 합성 및 실제 데이터셋에서 전통적 및 RL 기반 기준선보다 더 높은 성능을 보임을 입증한다.

제안 방법

  • 상태 주의력은 페이즈 표현에, 액션 주의력은 다음 페이즈 결정에 사용되는 두 가지 주의 메커니즘을 갖춘 AttendLight를 도입한다.
  • 차선 수준의 트래픽 특성을 Conv1D 임베딩 함수로 임베딩하고, 참가 차선들의 가중합으로 페이즈 표현 z_p^t를 계산한다.
  • LSTM을 사용하여 순차적 페이즈 정보를 포착하고, 페이즈 표현에 대한 액션 주의를 통해 다음 페이즈 정책을 도출한다.
  • 단일-env(같은 교차로에서 학습 및 배치)와 다중-env(여러 교차로에서 학습하고 널리 배포)라는 두 체제에서 분산 감소 REINFORCE 알고리즘으로 학습한다.
  • 상태 s^t를 차선 특성 집합 s_l^t로 나타내고, 도로 교차로 압력을 음수로 보상으로 사용하여 이동 시간 최소화를 근사한다.

실험 결과

연구 질문

  • RQ1다양한 도로 수, 차선 수, 페이즈를 가진 교차로에서 단일, 보편 RL 모델이 높은 품질의 트래픽 신호 제어를 달성할 수 있는가?
  • RQ2AttendLight가 다수의 교차로에서의 학습으로 보지 않은 구성에 일반화하여 재학습 없이도 적용될 수 있는가?
  • RQ3단일-환경 대 다중-환경 학습 체제에서 AttendLight의 성능은 전통적 기준선과 RL 기반 기준선에 비해 어떠한가?
  • RQ4제안된 주의 메커니즘이 입력/출력 크기의 가변성을 TSCP에서 얼마나 효과적으로 처리하는가?
  • RQ5일부 샷 보정이 보편 정책을 특정 교차로에 적응시키는 데 효과적인가?

주요 결과

  • AttendLight는 단일-env 및 다중-env 체제에서 다양한 교차로에서 고전적 및 여러 RL 기반 기준선보다 우수한 성능을 보인다.
  • 단일-env 체제에서 112개 사례에서 큰 개선을 달성(예: FixedTime 대비 46%, MaxPressure 대비 39%, SOTL 대비 34%, DQTSC-M 대비 16%, FRAP 대비 9%).
  • 다중-env 체제에서 학습 대비 테스트 세트에서 약 13-15% ATT 열화가 나타나 교차로 간 우수한 일반화 및 지식 공유를 시사한다.
  • 112개 교차로에 걸쳐 다중-env 정책이 일반적으로 FixedTime, MaxPressure, SOTL보다 우수하고 FRAP와 경쟁적이며 종종 DQTSC-M보다 낫다.
  • 몇 샷 보정은 200 학습 에피소드 후 다중-env와 단일-env 간의 격차를 15%에서 5%로, 1000 에피소드 후에는 3%로 줄이는 데 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.