QUICK REVIEW

[論文レビュー] An Efficient Deep Reinforcement Learning Model for Urban Traffic Control

Yilun Lin, Xingyuan Dai|arXiv (Cornell University)|Aug 6, 2018

Traffic control and management参考文献 7被引用数 55

ひとこと要約

論文は、Residualネットワーク、ハイブリッド報酬、クリップ PPO を用いた多交差点信号制御を効率的に行う DRL ベースの都市交通制御システムを提案し、収束を早め、スループットを向上させる。

ABSTRACT

Urban Traffic Control (UTC) plays an essential role in Intelligent Transportation System (ITS) but remains difficult. Since model-based UTC methods may not accurately describe the complex nature of traffic dynamics in all situations, model-free data-driven UTC methods, especially reinforcement learning (RL) based UTC methods, received increasing interests in the last decade. However, existing DL approaches did not propose an efficient algorithm to solve the complicated multiple intersections control problems whose state-action spaces are vast. To solve this problem, we propose a Deep Reinforcement Learning (DRL) algorithm that combines several tricks to master an appropriate control strategy within an acceptable time. This new algorithm relaxes the fixed traffic demand pattern assumption and reduces human invention in parameter tuning. Simulation experiments have shown that our method outperforms traditional rule-based approaches and has the potential to handle more complex traffic problems in the real world.

研究の動機と目的

大規模UTCをモデルフリーのデータ駆動手法で制御する際の課題を動機づけ、対処する。
多数の交差点へスケール可能な DRL フレームワークを、過度な手動チューニングを伴わずに開発する。
訓練を安定化し、局所ゴールと全体ゴールのバランスをとる報酬と学習アーキテクチャを設計する。
シミュレートされた都市ネットワーク上で、速い収束と実用的な訓練効率を実証する。

提案手法

交通データを DRL モデルの 2-D テンソル入力に整形する。
共有の ResNet ベース特徴抽出器を用いた中央集権型アクター-クリティック DRL アーキテクチャを採用する。
グローバルネットワークの流出と局所交差点のバランスを組み合わせたハイブリッド報酬を用い、グローバル報酬の強調を徐々に高める。
Generalized Advantage Estimation (GAE) を用いた Advantage Actor-Critic (A2C) フレームワークを採用する。
単調な改善と安定性を保証するためにクリップ PPO を用いて方策を更新する。
効率のために並列マルチアクター訓練、同期更新、Adam 最適化を活用する。

実験結果

リサーチクエスチョン

RQ1様々な需要レベルにおいて、DRL ベースの UTC コントローラは固定時間制御や車両作動制御よりも高いスループットと低い待ち時間を達成できるか。
RQ2グローバルネットワークの性能と局所交差点のバランスの両方を組み込む（ハイブリッド報酬）は、学習効率と最終性能を改善するか。
RQ3クリップ PPO を用いた ResNet ベースの DRL モデルは、大規模 UTC 問題で迅速に収束するか。
RQ4提案手法は、非飽和・飽和・過負荷の交通条件下でどのように性能を示すか。

主な発見

DRL ベースの UTC は、非飽和および飽和のシナリオで、テストされた需要全体において固定時間および車両作動制御を上回る。
平均交通システムのスループットは、25.19%（固定時間に対して）と37.81%（車両作動に対して）増加。
平均待ち時間は、18.68%（固定時間に対して）と28.54%（車両作動に対して）減少。
評価された需要に渡って、DRL コントローラは交通蓄積が少なく、マクロ的基本図（Macroscopic Fundamental Diagrams）の成長が緩やかになる。
訓練は50エピソード未満で収束し、全訓練は two-GPU ワークステーションで約7時間30分。
ハイブリッド報酬（グローバル+ローカルバランス）は、訓練時にグローバル報酬のみを使用する場合より顕著に良い性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。