QUICK REVIEW

[論文レビュー] Self-Driving Car Steering Angle Prediction Based on Image Recognition

Shuyang Du, Haoli Guo|arXiv (Cornell University)|Dec 11, 2019

Autonomous Vehicle Technology and Safety参考文献 20被引用数 83

ひとこと要約

この論文は、3D CNN+LSTM アーキテクチャと ResNet50 ベースの転移学習モデルを用いて Udacity の自動運転車画像からハンドル角を予測し、RMSE の結果とモデルの洞察を報告します。

ABSTRACT

Self-driving vehicles have expanded dramatically over the last few years. Udacity has release a dataset containing, among other data, a set of images with the steering angle captured during driving. The Udacity challenge aimed to predict steering angle based on only the provided images. We explore two different models to perform high quality prediction of steering angles based on images using different deep learning techniques including Transfer Learning, 3D CNN, LSTM and ResNet. If the Udacity challenge was still ongoing, both of our models would have placed in the top ten of all entries.

研究の動機と目的

driving images から end-to-end のハンドル角予測を動機付け、手作りルールの低減を目指す。
3D の畳み込みと LSTM を通じて時系列情報を探索し、ハンドル角予測を改善する。
Udacity データセット上で事前学習済みモデル（ResNet50）を用いた転移学習を評価する。
データ拡張の戦略とそれがモデル性能に与える影響を評価する。
NVIDIA のベースラインと比較し、プロダクションシステムへの含意を議論する。

提案手法

時系列情報を捉えるために残差接続を備えた3D畳み込みモデルを開発し、その後にLSTM層を配置する（5 シーケンスの 5 フレーム、5x5x120x320x3、543,131 パラメータ）。
ImageNet で事前学習された ResNet50 を用いた転移学習モデルを開発；最初の約45層を凍結し、ハンドル角を予測する全結合層を接続する（出力1）。
入力を [-1,1] に正規化し、ネットワークとの互換性を確保するために crop のリサイズとブレンドを行うなど、明るさ、影、シフト、回転を含むデータ拡張を適用する。
平均二乗誤差 loss と Adam オプティマイザを用いた学習を実施し、学習率減衰を適用する；評価指標として RMSE を報告する。
Saliency マップを可視化してモデルの注意領域を解釈し、3D-LSTM モデルにおける時系列特徴量の活用を議論する。

実験結果

リサーチクエスチョン

RQ13D CNN + LSTM アーキテクチャはシーケンス画像から時系列情報を活用してハンドル角を予測できるか？
RQ2事前学習済みの ResNet50 による転移学習は Udacity データセット上で競争力のある RMSE を達成するか？
RQ3異なるデータ拡張レベルはモデルの性能と一般化にどのように影響するか？
RQ4提案モデルは NVIDIA のベースラインや Udacity チャレンジのトップエントリとどう比較されるか？

主な発見

Model	Training Set RMSE	Validation Set RMSE	Test Set RMSE
Predict 0	0.2716	0.2130	0.2076
3D LSTM	0.0539	0.1139	0.1123
Transfer	0.0212	0.0775	0.0709
NVIDIA	0.0750	0.0995	0.0986

3D CNN + LSTM モデルはテストセットで RMSE が 0.1123 を達成（リーダーボードの約 10 位に相当）。
ResNet50 転移学習モデルはテストセットで RMSE が 0.0709 を達成（リーダーボードの約 4 位に相当）。
テスト済みエポックで最小限のデータ拡張が重い拡張よりも優れており、中程度の拡張は一定程度良好だったが、時に最小と遜色があった。
サリエンシーマップはモデルが車線標識や近くの物体に焦点を当てることを示しており、3D-LSTM モデルの時系列サリエンシーはフレーム間で変化する特徴を強調する。
NVIDIA ベースラインは同じ評価設定でテストで RMSE 0.0986、訓練で 0.0750 を達成しており、提案手法の競争力を示している。
全体として、ResNet50 を用いた転移学習は明示的な時系列モデリングなしでも高い性能を提供する一方、3D-LSTM モデルは計算資源の制約下で時系列コンテキストを組み込む価値を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。