Skip to main content
QUICK REVIEW

[論文レビュー] Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving

Shai Shalev‐Shwartz, Shaked Shammah|arXiv (Cornell University)|Oct 11, 2016
Reinforcement Learning in Robotics参考文献 31被引用数 367
ひとこと要約

本論文は、学習の欲求を硬直制約の軌道計画と分離し、階層的時間抽象化のためのオプショングラフを用いて分散とサンプル複雑性を低減する、安全な強化学習フレームワークを自動運転に導入し、難しい二重合流シナリオで実証した。

ABSTRACT

Autonomous driving is a multi-agent setting where the host vehicle must apply sophisticated negotiation skills with other road users when overtaking, giving way, merging, taking left and right turns and while pushing ahead in unstructured urban roadways. Since there are many possible scenarios, manually tackling all possible cases will likely yield a too simplistic policy. Moreover, one must balance between unexpected behavior of other drivers/pedestrians and at the same time not to be too defensive so that normal traffic flow is maintained. In this paper we apply deep reinforcement learning to the problem of forming long term driving strategies. We note that there are two major challenges that make autonomous driving different from other robotic tasks. First, is the necessity for ensuring functional safety - something that machine learning has difficulty with given that performance is optimized at the level of an expectation over many instances. Second, the Markov Decision Process model often used in robotics is problematic in our case because of unpredictable behavior of other agents in this multi-agent scenario. We make three contributions in our work. First, we show how policy gradient iterations can be used without Markovian assumptions. Second, we decompose the problem into a composition of a Policy for Desires (which is to be learned) and trajectory planning with hard constraints (which is not learned). The goal of Desires is to enable comfort of driving, while hard constraints guarantees the safety of driving. Third, we introduce a hierarchical temporal abstraction we call an "Option Graph" with a gating mechanism that significantly reduces the effective horizon and thereby reducing the variance of the gradient estimation even further.

研究の動機と目的

  • マルチエージェント交通における学習ベースの運転ポリシーの機能安全に対処する。
  • 厳密なMDP仮定に依存せず、非マルコフ性およびマルチエージェントのダイナミクスを扱う。
  • ハード制約による安全性を保証しつつ、快適な運転をもたらす学習フレームワークを開発する。
  • 勾配分散とサンプル複雑性を低減するための階層的な時間的抽象化を導入する。

提案手法

  • 欲求 Desires の学習可能なポリシーと、硬い安全制約を満たす学習しない軌道プランナーにポリシーを分解する。
  • マルコフ仮定を必要としないポリシー勾配法と、分散削減技術を用いる。
  • 時間的抽象化とゲーティングを提供するオプショングラフを導入し、ホライズンと分散を低減する。
  • Desiresを [0, v_max] × L × {g,t,o}^n のデータ空間の積としてパラメータ化し、速度、車線位置、相互作用を捉える。
  • Desiresを硬い制約を伴う軌道コスト関数へ変換し、安全性を保証する。

実験結果

リサーチクエスチョン

  • RQ1運転のマルチエージェント設定において、マルコフ性の仮定なしでポリシー勾配強化学習は効果的に機能し得るか?
  • RQ2学習効率を犠牲にせず、自動運転の強化学習における機能安全をどう保証するか?
  • RQ3オプショングラフによる階層的時間抽象化は、勾配分散を低減し、運転ポリシーのサンプル効率を改善するか?
  • RQ4複雑な合流シナリオの下で、Desires-to-trajectory分解は安全で快適な運転を実現できるか?

主な発見

  • マルコフ仮定なしで自動運転のポリシー勾配を定式化できる。偏りのない勾配推定は依然として実現可能である。
  • 安全性は、ポリシーを Desires(学習されたもの)と決定論的で制約駆動の軌道プランナーに分解することで達成される。
  • オプショングラフは、実効ホライズンと勾配分散を低減する階層的な意思決定を提供し、サンプル効率を向上させる。
  • Desires-to-trajectoryフレームワークは、二重合流のような難しい maneuvers を機能安全保証とともに扱える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。