[論文レビュー] Adaptive Traffic Signal Control: Deep Reinforcement Learning Algorithm with Experience Replay and Target Network
本論文は、CNNベースの特徴抽出器、経験再生、ターゲットネットワークを用いた深層強化学習アプローチを提案し、生のリアルタイムデータを用いて交通信号を適応的に制御し、安定性を向上させ車両遅延を軽減する。
Adaptive traffic signal control, which adjusts traffic signal timing according to real-time traffic, has been shown to be an effective method to reduce traffic congestion. Available works on adaptive traffic signal control make responsive traffic signal control decisions based on human-crafted features (e.g. vehicle queue length). However, human-crafted features are abstractions of raw traffic data (e.g., position and speed of vehicles), which ignore some useful traffic information and lead to suboptimal traffic signal controls. In this paper, we propose a deep reinforcement learning algorithm that automatically extracts all useful features (machine-crafted features) from raw real-time traffic data and learns the optimal policy for adaptive traffic signal control. To improve algorithm stability, we adopt experience replay and target network mechanisms. Simulation results show that our algorithm reduces vehicle delay by up to 47% and 86% when compared to another two popular traffic signal control algorithms, longest queue first algorithm and fixed time control algorithm, respectively.
研究の動機と目的
- 固定時間や待ち行列ベースの方法よりも動的な実交通をよりうまく扱える適応型交通信号制御を動機づける。
- 生の交通データから学習して、人が設計した特徴量への依存を排除する。
- 経験再生とターゲットネットワークを用いた安定したDRLフレームワークを開発する。
- 人気のベースラインコントローラに対するシミュレーションで有効性を示す。
提案手法
- 交差点制御をマルコフ決定過程としてモデル化し、状態、行動、報酬をリアルタイムの交通データに基づいて定義する。
- 車両位置と速度のマトリクスおよび信号状態から特徴を抽出する深層畳み込みニューラルネットワークを用いる。
- 学習を安定化させるために別個のターゲットネットワークを持つDQN風アーキテクチャを実装し、効率的な訓練のために経験再生を用いる。
- epsilon-greedyポリシーで訓練し、ソフトターゲットネットワーク更新を用いてTemporal-Difference誤差を最小化するためにRMSPropを使用する。
- 入力を道路ごとにP(車両位置)とV(正規化された速度)マトリクスとして、Lを二アクションの緑信号構成ベクトルとして表す。
実験結果
リサーチクエスチョン
- RQ1人手で設計された特徴量を使わず、生データから直接効果的な適応型交通信号制御を学習できる深層強化学習エージェントは作れるか?
- RQ2経験再生とターゲットネットワークは、DRLベースの交通信号制御の安定性と性能を向上させるか?
- RQ3提案手法は、変動する交通需要の下で固定時間と最長待ち行列先行(LQF)ベースラインとどのように比較されるか?
主な発見
- DRLエージェントは車両滞在時間の総和を減らす方針を学習し、十分な訓練後に安定して小さな値へ収束する。
- 訓練が進むにつれて全道路の平均車両遅延が減少し、公正な制御方針を効果的に学んでいることを示している。
- より高い交通需要下で、DRL手法は固定時間と長い待ち行列優先(LQF)ベースラインと比較して遅延を著しく削減し、最大で固定時間に対して86%、LQFに対して47%の削減を達成。
- 需要の変化に対して頑健性を示し、需要が増加しても混雑路で遅延がわずかにしか増えない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。