Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Deep Learning for Steering Autonomous Vehicles Considering Temporal Dependencies

Hesham M. Eraqi, Mohamed Moustafa|arXiv (Cornell University)|Oct 10, 2017
Autonomous Vehicle Technology and Safety参考文献 20被引用数 70
ひとこと要約

本論文は、視覚的および時間的運転手がけ cueをエンドツーエンドで学習する畳み込み長短期記憶(C-LSTM)モデルを提案し、ステアリングを正弦波分類タスクとして定式化します。comma.aiデータセットでRMSEの35%改善と安定性の87%向上を達成します。

ABSTRACT

Steering a car through traffic is a complex task that is difficult to cast into algorithms. Therefore, researchers turn to training artificial neural networks from front-facing camera data stream along with the associated steering angles. Nevertheless, most existing solutions consider only the visual camera frames as input, thus ignoring the temporal relationship between frames. In this work, we propose a Convolutional Long Short-Term Memory Recurrent Neural Network (C-LSTM), that is end-to-end trainable, to learn both visual and dynamic temporal dependencies of driving. Additionally, We introduce posing the steering angle regression problem as classification while imposing a spatial relationship between the output layer neurons. Such method is based on learning a sinusoidal function that encodes steering angles. To train and validate our proposed methods, we used the publicly available Comma.ai dataset. Our solution improved steering root mean square error by 35% over recent methods, and led to a more stable steering by 87%.

研究の動機と目的

  • フロントエ facingカメラデータからエンドツーエンド学習タスクとしてステアリングを動機づける。
  • C-LSTMアーキテクチャを通じてフレーム間の時間的依存性を組み込む。
  • 出力トポロジーを活用するため、ステアリング角を正弦波回帰として捉え、正弦波分類を提案する。
  • 正弦波分類とLSTMが、直接回帰や従来の分類器よりも精度と安定性を向上させることを示す。

提案手法

  • ImageNetで事前学習されたCNNを用いてフレームレベルの特徴を抽出する。
  • 連続するCNN特徴を積み重ねたLSTM層で処理し、時間的ダイナミクスをモデル化する。
  • N個の出力ニューロンにわたってステアリング角を正弦波としてエンコードし、空間的相関を課す。
  • フレームX_{t-w}...X_tからステアリング角Y_tへのマッピングを学習するため、スライディングウィンドウでエンドツーエンドに訓練する。
  • デプロイ時には最小二乗法で出力に対して正弦波を適合させてステアリング角をデコードする。

実験結果

リサーチクエスチョン

  • RQ1C-LSTMを介した時間的依存性の統合は、 monocularビデオからのステアリング予測を改善できるか。
  • RQ2正弦波分類を用いた空間的に相関した出力でステアリング角をエンコードすることは、直接回帰や標準的な分類法より優れているか。
  • RQ3スライディングウィンドウ長とネットワーク深さが予測精度と安定性に及ぼす影響はどの程度か。

主な発見

MethodRMSE (Degrees)Whiteness (Degrees / Time unit)
Regression (CNN)17.7739.1
Classification (NLL)17.8410.0
Classification by sine wave fitting14.938.2
C-LSTM16.019.7
  • C-LSTMは、白色度9.7°/時間単位、RMSEを16.01°へ改善し、CNNベースの回帰の17.77° RMSEおよび39.1の白色度と比較して優れる。
  • 正弦波分類と正弦波フィッティングはRMSE 14.93°、白色度8.2°を達成し、直接回帰と従来の分類の両方を上回る。
  • 提案手法は、最先端の手法と比較してcomma.aiデータセットでステアリングRMSEを35%削減、安定性を87%向上させる。
  • 評価済み表では、C-LSTMを用いた正弦波分類がベースライン回帰および標準分類法を上回る。
  • 回帰を相関出力の正弦波としてエンコードすることで、エンドツーエンドの運転性能が向上することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。