QUICK REVIEW

[論文レビュー] Reinforcement Learning and Deep Learning based Lateral Control for Autonomous Driving

Dong Li, Dongbin Zhao|arXiv (Cornell University)|Oct 30, 2018

Reinforcement Learning in Robotics参考文献 49被引用数 39

ひとこと要約

本稿では、視覚ベースの側方制御フレームワークを提案する。このフレームワークは、特徴抽出にマルチタスクディープラーニング（MTL-CNN）を、制御にディープレインフォースメントラーニング（PPOベースのポリシー勾配）を用いることで、認識と制御を分離する。MTL-RLコントローラーは、多様なトラックでLQRおよびMPCを上回り、視覚入力のみで安定的かつ高精度な車線維持を達成した。これは、新規のシミュレータ（VTORCS）を用いて検証された。

ABSTRACT

This paper investigates the vision-based autonomous driving with deep learning and reinforcement learning methods. Different from the end-to-end learning method, our method breaks the vision-based lateral control system down into a perception module and a control module. The perception module which is based on a multi-task learning neural network first takes a driver-view image as its input and predicts the track features. The control module which is based on reinforcement learning then makes a control decision based on these features. In order to improve the data efficiency, we propose visual TORCS (VTORCS), a deep reinforcement learning environment which is based on the open racing car simulator (TORCS). By means of the provided functions, one can train an agent with the input of an image or various physical sensor measurement, or evaluate the perception algorithm on this simulator. The trained reinforcement learning controller outperforms the linear quadratic regulator (LQR) controller and model predictive control (MPC) controller on different tracks. The experiments demonstrate that the perception module shows promising performance and the controller is capable of controlling the vehicle drive well along the track center with visual input.

研究の動機と目的

純粋なエンドツーエンド学習の誤差蓄積問題を回避する、堅牢でエンドツーエンドの視覚ベースの側方制御システムの開発。
畳み込みニューラルネットワークにおけるマルチタスク学習を用いて、複数のトラック関連特徴（例：中央線からの距離、ヨー角）を同時に学習することで、データ効率性と認識精度の向上。
明示的な車両動力学モデルを必要とせず、多様なトラック環境に一般化可能なモデルフリーの強化学習コントローラーの設計。
訓練および評価のための高精度でアクセス可能なシミュレーション環境（VTORCS）の構築。

提案手法

認識モジュールは、ドライバー視点の画像を処理し、同時に重要なトラック特徴（中央線からの距離、ヘディング角の差）を予測するマルチタスク学習畳み込みニューラルネットワーク（MTL-CNN）を用いる。
制御モジュールは、予測されたトラック特徴に基づいてステアリング指令を生成するポリシー勾配強化学習アルゴリズム（特にPPO）を採用する。
強化学習の訓練および認識評価を可能にする画像およびセンサ入力をサポートする、TORCSに基づく新規なシミュレーション環境、視覚TORCS（VTORCS）を構築した。
MTL-CNNは、中央線からの距離およびヨー角の両方の回帰損失を組み合わせた統合損失関数を最小化するように訓練される。
RLエージェントは、車線中央への追従と滑らかなステアリングを促進するため、密度、スパarsity、形状付きの報酬を用いて訓練される。
本システムは、難易度の異なる複数のトラック（例：g-track-3、alpine-2）で評価され、LQRおよびMPCコントローラーと性能を比較した。

実験結果

リサーチクエスチョン

RQ1モノクローラル画像から中心線からの距離およびヨー角といった重要なトラック特徴を同時に予測するマルチタスクディープラーニング認識ネットワークは、相関するタスク（例：中央線からの距離とヨー角）の共同学習により、精度と頑健性を向上させることができるか？
RQ2MTL予測特徴に基づいて訓練されたポリシー勾配強化学習コントローラーは、未知の多様なトラック環境において、古典的なモデルベースコントローラー（LQR、MPC）を上回ることができるか？
RQ3エンドツーエンド学習と比較して、認識とRLモジュールの統合は、データ効率性およびポリシーの一般化性においてどのように異なるか？
RQ4提案されたVTORCSシミュレータは、視覚ベースの自動運転エージェントの効率的かつ現実的な訓練をどの程度可能にするか？
RQ5ノイズの多い認識入力下でも、MTL-RLコントローラーは、同じ特徴を用いるモデルベースのLQRコントローラーと比較して、どの程度優れた制御安定性を示すか？

主な発見

MTL-CNN認識モジュールは、単一タスクベースラインと比較して低いテスト誤差を達成し、相関するタスク（例：中央線からの距離とヨー角）の共同学習が特徴表現を向上させることを示した。
g-track-3トラックでは、MTL-RLコントローラーが視覚入力のみでフルラップを完了したが、Chenの単一タスク認識手法は影の強いカーブで失敗した。
alpine-2トラックでは、MTL-RLコントローラーの平均車線逸脱距離は0.148 mであり、MTL-LQRコントローラー（0.175 m）を上回り、認識ノイズに対する優れた頑健性を示した。
全テストトラックにおいて、MTL-RLコントローラーはLQRおよびMPCコントローラーを上回り、優れた一般化性と適応性を示した。
VTORCSシミュレータは、効率的なデータ収集を可能にし、視覚ベースのRLエージェントの訓練および評価のための現実的でアクセスしやすいプラットフォームを提供した。
RLコントローラーは、MTL-CNNの予測が不完全であっても、安定した制御を維持する優れた耐性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。