Skip to main content
QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning for Autonomous Driving

Wang, Sen, Daoyuan Jia|arXiv (Cornell University)|Nov 28, 2018
Reinforcement Learning in Robotics参考文献 16被引用数 44
ひとこと要約

本論文は TORCS シミュレータで自動運転に Deep Deterministic Policy Gradient (DDPG) を適用し、連続的なアクション空間と安全性制約に対処するためのカスタムセンサー入力セットと報酬関数を設計する。

ABSTRACT

Reinforcement learning has steadily improved and outperform human in lots of traditional games since the resurgence of deep neural network. However, these success is not easy to be copied to autonomous driving because the state spaces in real world are extreme complex and action spaces are continuous and fine control is required. Moreover, the autonomous driving vehicles must also keep functional safety under the complex environments. To deal with these challenges, we first adopt the deep deterministic policy gradient (DDPG) algorithm, which has the capacity to handle complex state and action spaces in continuous domain. We then choose The Open Racing Car Simulator (TORCS) as our environment to avoid physical damage. Meanwhile, we select a set of appropriate sensor information from TORCS and design our own rewarder. In order to fit DDPG algorithm to TORCS, we design our network architecture for both actor and critic inside DDPG paradigm. To demonstrate the effectiveness of our model, We evaluate on different modes in TORCS and show both quantitative and qualitative results.

研究の動機と目的

  • 連続的な action と複雑な状態を伴う自動運転への深層強化学習適用の課題を動機づけ、対処する。
  • TORCS で DDPG ベースのエージェントを評価し、速く安全な運転方針を学習させる。
  • TORCS と連続制御に適したセンサー入力と適切な報酬関数を設計する。
  • 自動運転タスクのために DDPG フレームワーク内でアクター-クリティックネットワークアーキテクチャを開発する。

提案手法

  • ステアリング、加速、ブレーキの連続制御方針を学習するために DDPG を使用する。
  • TORCS から 29 次元のセンサー入力ベクトルを状態表現として選択する。
  • トラック上での速度を重視し、トラック中心からの偏差と鉛直方向の速度成分を罰する報酬関数を定義する。
  • 特定のアーキテクチャ配置と経験リプレイ戦略を備えたアクターとクリティックネットワークを設計する。
  • 学習を安定化させるためにターゲットネットワークとソフトアップデートを組み込む。

実験結果

リサーチクエスチョン

  • RQ1DDPG はシミュレータ内で自動運転の効果的な連続制御方針を学習できるか?
  • RQ2TORCS に合わせてセンサー入力と報酬設計をどのように調整すれば学習を促進できるか?
  • RQ3このタスクの学習効率を改善するネットワークアーキテクチャと安定化技術(例:ターゲットネットワーク、リプレイバッファ)は何か?
  • RQ4トレーニングモードと競技モード、さまざまな運転シナリオにおいてエージェントはどのように性能を示すか?

主な発見

  • DDPG ベースのエージェントは、トレーニング環境で機能的な安全性を維持しつつ、TORCS シミュレータで速く走る運転を学習できる。
  • 訓練はエピソードごとに平均速度とステップゲインが増加し、約100エピソード後に安定化する。
  • エージェントはカーブ前に減速することを学習し、ドリフトを減らしコーナリング性能を向上させる。
  • 競技モードでの性能は、エージェントがターンで対戦相手を追い抜き、進化するシナリオに適応できることを示している。
  • 訓練挙動にはエージェントが一時的に停止したりドリフトしたりするエピソードが含まれ、安定性に影響を与える環境由来の問題を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。