QUICK REVIEW

[論文レビュー] MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving

Mennatullah Siam, Heba Mahgoub|arXiv (Cornell University)|Sep 14, 2017

Advanced Neural Network Applications参考文献 25被引用数 49

ひとこと要約

本稿では、RGBと光流の特徴を統合することで、車両検出とモーショントラッキングを共同で学習する二本のストリームから構成される畳み込みニューラルネットワーク、MODNetを提案する。KITTI MODデータセットにおいて、MPNetに比べてmAPが21.5%向上し、8 fpsのリアルタイム推論を実現した。この手法は、マルチタスク学習による共有エンコーダ表現を活用し、自己移動と複雑な物体相互作用が生じる自動運転シナリオにおいても、動的物体の検出を安定的に行える。

ABSTRACT

We propose a novel multi-task learning system that combines appearance and motion cues for a better semantic reasoning of the environment. A unified architecture for joint vehicle detection and motion segmentation is introduced. In this architecture, a two-stream encoder is shared among both tasks. In order to evaluate our method in autonomous driving setting, KITTI annotated sequences with detection and odometry ground truth are used to automatically generate static/dynamic annotations on the vehicles. This dataset is called KITTI Moving Object Detection dataset (KITTI MOD). The dataset will be made publicly available to act as a benchmark for the motion detection task. Our experiments show that the proposed method outperforms state of the art methods that utilize motion cue only with 21.5% in mAP on KITTI MOD. Our method performs on par with the state of the art unsupervised methods on DAVIS benchmark for generic object segmentation. One of our interesting conclusions is that joint training of motion segmentation and vehicle detection benefits motion segmentation. Motion segmentation has relatively fewer data, unlike the detection task. However, the shared fusion encoder benefits from joint training to learn a generalized representation. The proposed method runs in 120 ms per frame, which beats the state of the art motion detection/segmentation in computational efficiency.

研究の動機と目的

自己移動や複雑な物体相互作用によってモーショントラッキング性能が低下する自動運転シーンにおける動的物体検出の課題に対処すること。
単一モodalなアプローチの限界を克服するため、統合的なディープラーニングフレームワークで外観と動きの手がかりを同時にモデル化すること。
動的物体トラッキング研究を支援するため、静的／動的アノテーションを備えた新しいベンチマークデータセット、KITTI MODを構築すること。
共有表現を用いたマルチタスク学習が、特にモーショントラッキングデータが限られる状況において一般化性能を向上させることを示すこと。

提案手法

RGB画像と光流を別々に処理する二本のストリームからなるエンコーダ・デコーダアーキテクチャを提案し、共有エンコーダで特徴を統合して共同学習を実現する。
スコアリング接続を備えた共有エンコーダを採用し、空間分解能を保持するとともに、検出とモーショントラッキングの両タスクにおける特徴表現を強化する。
エンドツーエンド学習中に、検出損失（例：交差エントロピーとボックス回帰）とモーショントラッキング損失（例：バイナリクロスエントロピー）を組み合わせたマルチタスク損失関数を採用する。
3つのバリエーションを導入：(1) 単一ストリームの光流、(2) 別々に学習する二本のストリーム、(3) 共同で学習する二本のストリーム。その中で、最後のアプローチが最も優れた性能を示した。
限られたモーショントラッキングデータでも収束性と性能を向上させるために、事前学習済みのVGG16重みをエンコーダに活用する。
KITTIデータセットに動的／静的物体アノテーションを追加するための新規データ生成パイプラインを導入し、KITTI MODベンチマークを構築した。

実験結果

リサーチクエスチョン

RQ1外観と動きの手がかりを共同で学習することで、自動運転における動的物体検出およびモーショントラッキングの精度が向上するか？
RQ2モーショントラッキングデータが検出データに比べて少ない状況において、共有表現を用いたマルチタスク学習は性能をどのように向上させるか？
RQ3二本のストリームアーキテクチャでRGBと光流を統合することで、単一ストリームや別々の学習アプローチに比べ、モーショントラッキングと検出の両方で優れた性能を達成できるか？
RQ4提案手法はDAVISのような非自動車用データセットに対しても一般化できるか？また、最先端の非教師あり動画セグメンテーションモデルと比較してどうなるか？
RQ5本モデルは、これまでに学習されていない物体カテゴリ（例：建設用トラック）を、完全に動きの手がかりに基づいて検出できるか？これにより、珍しいまたは未学習の車両に対しても頑健性が確保されるか？

主な発見

KITTI MODデータセットにおいて、検出とモーショントラッキングの共同学習により、MPNetに比べてmAPが21.5%向上し、最終的なmAPは62.57%に達した。
RGBと光流を入力とする二本のストリームアーキテクチャを共同で学習させた場合、別々に学習する場合に比べてmAPが52.5%から62.57%に向上した。
Titan X GPU上で8 fpsの推論速度を達成し、1フレームあたり最大50分もかかっていた先行手法を著しく上回った。
DAVISベンチマークでは、CRFを用いない場合の平均IoUは63.88%、CRFを用いた場合は66.0%を達成し、主な評価では後処理を一切使用していないにもかかわらず、大多数の非教師あり手法を上回った。
MPNetが使用する合成データとは異なり、現実のカメラの動きと複雑なシーンを含むKITTI MODを用いることで、より優れた一般化性能が得られた。
ゼロショット一般化性能が強く、建設用トラックなど未学習の物体カテゴリを、完全に動きの手がかりに基づいて検出できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。