QUICK REVIEW

[논문 리뷰] Using a Deep Reinforcement Learning Agent for Traffic Signal Control

Wade Genders, Saiedeh Razavi|arXiv (Cornell University)|2016. 11. 03.

Traffic control and management참고 문헌 17인용 수 242

한 줄 요약

본 논문은 SUMO에서 이산 교통 상태 인코딩(DTSE)을 사용하는 심층 Q-네트워크 교통 신호 제어기를 개발하여 얕은 NN 제어기와 비교했을 때 지연, 대기열 길이, 이동 시간에서 상당한 감소를 달성한다.

ABSTRACT

Ensuring transportation systems are efficient is a priority for modern society. Technological advances have made it possible for transportation systems to collect large volumes of varied data on an unprecedented scale. We propose a traffic signal control system which takes advantage of this new, high quality data, with minimal abstraction compared to other proposed systems. We apply modern deep reinforcement learning methods to build a truly adaptive traffic signal control agent in the traffic microsimulator SUMO. We propose a new state space, the discrete traffic state encoding, which is information dense. The discrete traffic state encoding is used as input to a deep convolutional neural network, trained using Q-learning with experience replay. Our agent was compared against a one hidden layer neural network traffic signal control agent and reduces average cumulative delay by 82%, average queue length by 66% and average travel time by 20%.

연구 동기 및 목표

풍부한 교통 데이터를 더 잘 활용하여 신호를 제어하도록 동기를 부여한다.
교차로를 위한 밀도 높고 정보가 풍부한 상태 표현(DTSE)을 제안한다.
최적의 차로 구성을 학습하는 심층 Q-네트워크 교통 신호 제어기(DQTSCA)를 개발한다.
얕은 신경망 TSCA(STSCA)와의 성능 비교를 통해 이점을 보임을 입증한다.
더 넓은 교차로 형상과 다양한 신호 단계에 대한 향후 확장에 대한 통찰을 제공한다.

제안 방법

DTSE를 차선당 세 부분으로 구성된 상태 표현으로 정의한다: 불리언 차량 존재 벡터, 실수값 속도 벡터, 그리고 현재 교통 페이스 벡터 P.
액션 공간을 NSG, EWG, NSLG, EWLG의 네 가지 신호-페이스 구성으로 정의하고, 안전 전이 시퀀스로 NSY, EWY, R을 포함한다.
보상은 장기 최적화를 위한 행동 실행 후 누적 차량 지연의 변화이다.
불리언 입력과 실수값 입력에 대해 두 개의 병렬 CNN 스트림과 함께 P를 사용하고, 이어서 네 가지 행동에 대한 Q-값을 산출하기 위해 두 개의 완전 연결층을 구현한다.
경험 재생과 RMSprop 최적화를 사용한 Q-학습으로 학습시킨다(α=0.00025, γ=0.95).
1600 학습 에폭에 걸쳐 감소하는 엡실론-탐욕 탐색 정책을 사용하고, 경험 재생이 없는 얕은 TSCA와의 성능을 비교한다.

실험 결과

연구 질문

RQ1이산 교통 상태 인코딩(DTSE)이 전통적 상태 추상화보다 심층 강화 학습 교통 신호 제어기에 더 풍부하고 정보가 풍부한 입력을 제공하는가?
RQ2경험 재생으로 학습된 심층 Q-네트워크가 처리량, 대기열 길이, 이동 시간, 누적 지연 측면에서 얕은 신경망 TSCA를 능가할 수 있는가?
RQ3학습 진행(탐색 대 활용)이 학습 중 보상 궤적과 교통 지표에 어떤 영향을 미치는가?
RQ4제시된 DTSE 기반 제어기가 다양한 신호 구성에 적응 가능하고 재학습 없이 더 복잡한 교차로에 확장 가능한가?

주요 결과

DQTSCA는 STSCA에 비해 평균 누적 지연을 82% 감소시켰다.
DQTSCA는 STSCA에 비해 평균 대기열 길이를 66% 감소시키고 평균 이동 시간을 20% 감소시켰다.
보고된 결과에서 DQTSCA와 STSCA 간의 처리량은 비슷했다(향상은 명시되지 않음).
학습 중 탐색은 높은 분산과 음의 보상을 초래하며, 정책이 활용적으로 수렴함에 따라 안정화된다.
DTSE와 심층 아키텍처의 조합은 얕은 에이전트에 비해 우수한 성능을 가능하게 했으며, 더 풍부한 상태 표현 및 특징 학습의 이점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.