QUICK REVIEW

[論文レビュー] Diagnosing Reinforcement Learning for Traffic Signal Control

Guanjie Zheng, Xinshi Zang|arXiv (Cornell University)|May 12, 2019

Traffic control and management参考文献 24被引用数 23

ひとこと要約

本稿では、交通流理論に基づき、待ち行列の長さを報酬として、車両数を状態として用いる強化学習フレームワークLITを提案する。均一な交通状況下では、報酬設計を単純化しても、旅行時間の最小化と理論的に同等であるため、最先端の手法を上回る優れた性能を達成する。

ABSTRACT

With the increasing availability of traffic data and advance of deep reinforcement learning techniques, there is an emerging trend of employing reinforcement learning (RL) for traffic signal control. A key question for applying RL to traffic signal control is how to define the reward and state. The ultimate objective in traffic signal control is to minimize the travel time, which is difficult to reach directly. Hence, existing studies often define reward as an ad-hoc weighted linear combination of several traffic measures. However, there is no guarantee that the travel time will be optimized with the reward. In addition, recent RL approaches use more complicated state (e.g., image) in order to describe the full traffic situation. However, none of the existing studies has discussed whether such a complex state representation is necessary. This extra complexity may lead to significantly slower learning process but may not necessarily bring significant performance gain. In this paper, we propose to re-examine the RL approaches through the lens of classic transportation theory. We ask the following questions: (1) How should we design the reward so that one can guarantee to minimize the travel time? (2) How to design a state representation which is concise yet sufficient to obtain the optimal solution? Our proposed method LIT is theoretically supported by the classic traffic signal control methods in transportation field. LIT has a very simple state and reward design, thus can serve as a building block for future RL approaches to traffic signal control. Extensive experiments on both synthetic and real datasets show that our method significantly outperforms the state-of-the-art traffic signal control methods.

研究の動機と目的

強化学習に基づく交通信号制御における、原則的でない報酬および状態設計の欠如に取り組むこと。これは、しばしば交通測定値の恣意的で重み付けされた組み合わせに依存する。
効果的な強化学習を実現するために、画像のような複雑な状態表現が必須であるかどうかを特定すること。
強化学習の報酬最適化が、最終的な制御目的たる旅行時間の最小化に実際に結びつくかどうかを保証すること。
アブレーション解析を通じて、効果的な強化学習における必須要因を同定すること。
強化学習に基づく制御と古典的交通理論を結びつけることにより、より信頼性が高く解釈可能な信号タイミングを実現すること。

提案手法

待ち行列長を報酬信号として用いる強化学習フレームワークLITを提案。均一な交通状況下では、待ち行列長の最小化が旅行時間の最小化と理論的に同等であることが証明されている。
画像のような高次元入力を避けるために、各レーンごとの車両数のみからなる最小限の状態表現を採用する。
ウェブスターの遅延式から理論的根拠を導出し、均一な到着条件下では待ち行列長の最小化が全旅行時間の最小化に等価であることを示す。
オンライン学習、ポリシーのロールアウトからのサンプリング指針、およびベルマン方程式による将来報酬予測という、強化学習の3つの主要な特徴を統合する。
簡略化された状態行動空間において効率的な学習を可能にする、テーブル型Qテーブルを用いたQ学習ベースのアルゴリズムを採用する。
オンライン学習、サンプリング指針、予測コンponentを個別に削除することで、アブレーションスタディを実施し、各要素の寄与度を評価する。

実験結果

リサーチクエスチョン

RQ1待ち行列長に基づくシンプルな報酬設計が、交通信号制御において旅行時間の最小化を保証できるか？
RQ2画像のような複雑な状態表現が、交通信号制御における効果的な強化学習に不可欠であるか、それとも最小限の状態で十分か？
RQ3オンライン学習、サンプリング指針、将来報酬予測といった強化学習のコア要素が、性能にどのように寄与しているか？
RQ4強化学習に基づく信号制御は、古典的交通理論に基づいて理論的根拠をもたせられるか？
RQ5最小限の状態および報酬設計は、合成的および実世界の交通シナリオの両方において、複雑で恣意的な設計を上回る性能を発揮するか？

主な発見

実世界データにおいて、待ち行列長を報酬、車両数を状態として用いるLITは、旅行時間を31.66秒にまで低減し、他のすべての最先端手法を顕著に上回る。
画像ベースの状態（M）を用いる場合、車両数のみを用いる場合（31.66秒）よりも性能が劣り（38.16秒）、高次元状態が性能向上に寄与しないことを示している。
状態に待機時間（W）や待ち行列長（L）を追加しても、車両数のみを用いる場合の性能を超えないことから、最小限の状態が十分であることが確認された。
遅延（D）、待機時間（W）、車両数（V）を単独または待ち行列長（L）と組み合わせた報酬設計は、いずれもLITベースラインを上回らなかった。最も優れた代替報酬設計（V,L）でも33.46秒にとどまり、LITに劣る。
オンライン学習、サンプリング指針、予測の3つの強化学習の主要要素のいずれかを削除すると、顕著な性能低下が生じ、それらが必須であることが確認された。
実世界の事例研究では、オンラインLITは19:00以降の急激な交通増加に適応可能であるが、オフラインLITは適応不能であり、混雑を引き起こす。これにより、オンライン学習の重要性が明確になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。