QUICK REVIEW

[論文レビュー] Using a Deep Reinforcement Learning Agent for Traffic Signal Control

Wade Genders, Saiedeh Razavi|arXiv (Cornell University)|Nov 3, 2016

Traffic control and management参考文献 17被引用数 242

ひとこと要約

本論文は、SUMO で離散交通状態エンコーディング（DTSE）を用いた深層Qネットワーク交通信号制御器を開発し、浅い NN 制御器と比較して遅延、待ち行列長、走行時間を大幅に削減する。

ABSTRACT

Ensuring transportation systems are efficient is a priority for modern society. Technological advances have made it possible for transportation systems to collect large volumes of varied data on an unprecedented scale. We propose a traffic signal control system which takes advantage of this new, high quality data, with minimal abstraction compared to other proposed systems. We apply modern deep reinforcement learning methods to build a truly adaptive traffic signal control agent in the traffic microsimulator SUMO. We propose a new state space, the discrete traffic state encoding, which is information dense. The discrete traffic state encoding is used as input to a deep convolutional neural network, trained using Q-learning with experience replay. Our agent was compared against a one hidden layer neural network traffic signal control agent and reduces average cumulative delay by 82%, average queue length by 66% and average travel time by 20%.

研究の動機と目的

最小限の抽象化で信号を制御するために、豊富な交通データの活用を促進する。
交通交差点のための密度が高く情報量の多い状態表現（DTSE）を提案する。
最適な位相列を学習する深層Qネットワーク交通信号制御器（DQTSCA）を開発する。
STSCA（浅いニューラルネットワークTSCA）と性能を比較し、利得を実証する。
より広い交差点形状と信号相に対する将来的な拡張のための知見を提供する。

提案手法

DTSE を、車両存在を表す真偽値ベクトル、実数値の速度ベクトル、および現在の交通相ベクトル P の3部構成の状態表現として定義する。
アクション空間をNSG、EWG、NSLG、EWLGの4つの信号相配置として定義し、NSY、EWY、R を含む安全遷移列を設ける。
報酬は、行動実行後の累積車両遅延の変化であり、長期最適化を導く。
Boolean入力と実数値入力の2つの並列CNNストリームにPを加えた深層畳み込みQネットワークを実装し、4つの動作に対するQ値を出力する2つの全結合層を続ける。
経験リプレイとRMSprop最適化を用いたQ学習で訓練する（α=0.00025、γ=0.95）。
1600の訓練エポックにわたって減衰するε-greedy探索方針を用い、経験リプレイを用いない浅いTSCAと性能を比較する。）

実験結果

リサーチクエスチョン

RQ1離散交通状態エンコーディング（DTSE）は、従来の状態抽象化よりも深層強化学習の交通信号制御器に対してより豊かで情報量の多い入力を提供するだろうか？
RQ2経験リプレイで訓練された深層Qネットワークは、スループット、待ち行列長、走行時間、累積遅延の点で浅いニューラルネットワークTSCAを上回ることができるか？
RQ3学習の進行（探索と活用）は、訓練中の報酬軌道と交通指標にどのような影響を与えるか？
RQ4提案されたDTSEベースの制御器は、さまざまな信号配置に適応し、再訓練なしでより複雑な交差点へスケール可能か？

主な発見

DQTSCA は STSCA に対して平均累積遅延を82%削減した。
DQTSCA は STSCA と比較して平均待ち行列長を66%、平均走行時間を20%減少させた。
報告された結果では、DQTSCAとSTSCAのスループットはほぼ同等だった（改善の記載なし）。
訓練中、探索は高い分散と負の報酬を生み出し、方策が活用的になり収束する。
DTSEと深層アーキテクチャの組み合わせは浅いエージェントより優れた性能を示し、より豊かな状態表現と特徴学習の利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。