[논문 리뷰] Adaptive Traffic Signal Control: Deep Reinforcement Learning Algorithm with Experience Replay and Target Network
이 논문은 CNN 기반 특징 추출기, 경험 재생, 타깃 네트워크를 사용한 딥 강화 학습 접근법으로 원시 실시간 데이터를 이용한 교통 신호의 적응적 제어를 통해 안정성을 높이고 차량 지연을 감소시킨다.
Adaptive traffic signal control, which adjusts traffic signal timing according to real-time traffic, has been shown to be an effective method to reduce traffic congestion. Available works on adaptive traffic signal control make responsive traffic signal control decisions based on human-crafted features (e.g. vehicle queue length). However, human-crafted features are abstractions of raw traffic data (e.g., position and speed of vehicles), which ignore some useful traffic information and lead to suboptimal traffic signal controls. In this paper, we propose a deep reinforcement learning algorithm that automatically extracts all useful features (machine-crafted features) from raw real-time traffic data and learns the optimal policy for adaptive traffic signal control. To improve algorithm stability, we adopt experience replay and target network mechanisms. Simulation results show that our algorithm reduces vehicle delay by up to 47% and 86% when compared to another two popular traffic signal control algorithms, longest queue first algorithm and fixed time control algorithm, respectively.
연구 동기 및 목표
- 고정 시간 또는 대기열 기반 방법보다 동적 실시간 트래픽을 더 잘 처리하기 위해 적응형 트래픽 신호 제어의 필요성을 제기한다.
- 원시 트래픽 데이터로부터 학습하여 인간이 설계한 특징에 대한 의존성을 제거한다.
- 경험 재생과 타깃 네트워크를 사용하여 안정적인 DRL 프레임워크를 개발한다.
- 시뮬레이션을 통해 인기 있는 기준 컨트롤러에 대해 효과를 입증한다.
제안 방법
- 교차로 제어를 마르코프 결정 프로세스(MDP)로 모델링하고 상태, 행동, 보상을 실시간 트래픽 데이터를 기반으로 정의한다.
- 차량 위치 및 속도 행렬과 신호 상태로부터 특징을 추출하기 위해 심층 합성곱 신경망을 사용한다.
- 학습 안정화를 위한 별도의 타깃 네트워크를 갖춘 DQN 유사 아키텍처를 구현하고, 효율적 학습을 위해 경험 재생을 사용한다.
- epsilon-탐욕 정책으로 학습하고, 소프트 타깃 네트워크 업데이트를 통해 시간 차 오차를 최소화하기 위해 RMSProp를 사용한다.
- 입력을 도로별로 P(차량 위치) 및 V(정규화된 속도) 행렬로 표현하고, L은 두 동작의 초록 신호 구성 벡터로 표현한다.
실험 결과
연구 질문
- RQ1딥 강화 학습 에이전트가 손으로 설계된 특징 없이 원시 트래픽 데이터로부터 직접 효과적인 적응형 트래픽 신호 제어를 학습할 수 있는가?
- RQ2경험 재생과 타깃 네트워크가 DRL 기반 트래픽 신호 제어의 안정성과 성능을 향상시키는가?
- RQ3다양한 트래픽 수요 하에서 제안된 방법이 고정 시간 및 가장 긴 대기열 우선 기준과 어떻게 비교되는가?
주요 결과
- DRL 에이전트는 차량 체류 시간 합계를 감소시키는 정책을 학습하고 충분한 학습 후에 안정적이고 작은 값으로 수렴한다.
- 학습이 진행됨에 따라 모든 도로의 평균 차량 지연이 감소하여 공정한 제어 정책을 효과적으로 학습하고 있음을 시사한다.
- 더 높은 트래픽 수요에서 DRL 방법은 고정 시간 대비 최대 86%, LQF 대비 47%까지 지연 감소를 가져와 기준선보다 상당한 차이를 보인다.
- 수요 변화에 대한 강인성을 시연하며, 수요 증가 시에도 바쁜 도로에서 지연이 다소만 증가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.