QUICK REVIEW

[論文レビュー] FisheyeMODNet: Moving Object Detection on Surround-view Cameras for Autonomous Driving

Marie Yahiaoui|arXiv (Cornell University)|Aug 30, 2019

Advanced Neural Network Applications参考文献 17被引用数 33

ひとこと要約

本稿では、自律走行車両の魚眼周辺視界画像における移動物体検出（MOD）のための軽量な二ストリーム畳み込みニューラルネットワーク（CNN）FisheyeMODNetを提案する。順次魚眼フレーム上でエンド・トゥ・エンド学習を実施することで、自車運動と物体運動を暗黙的に区別し、1 TOPSの埋め込みシステム上で15 fpsで40%のIoUおよび69.5%のmIoUを達成した。また、5,139フレームにわたるアノテート済みの公開魚眼MODデータセットを初リリースした。

ABSTRACT

Moving Object Detection (MOD) is an important task for achieving robust autonomous driving. An autonomous vehicle has to estimate collision risk with other interacting objects in the environment and calculate an optional trajectory. Collision risk is typically higher for moving objects than static ones due to the need to estimate the future states and poses of the objects for decision making. This is particularly important for near-range objects around the vehicle which are typically detected by a fisheye surroundview system that captures a 360± view of the scene. In this work, we propose a CNN architecture for moving object detection using fisheye images that were captured in autonomous driving environment. As motion geometry is highly non-linear and unique for fisheye cameras, we will make an improved version of the current dataset public to encourage further research. To target embedded deployment, we design a lightweight encoder sharing weights across sequential images. The proposed network runs at 15 fps using Jetston Nvidia TX2 embedded GPU at accuracy of 40% IoU and 69.5% mIoU.

研究の動機と目的

魚眼カメラ画像に強い非線形歪みと複雑な運動幾何学的特徴を示す中で、移動物体検出の課題に対処すること。
自動車用埋め込みプラットフォームへのデプロイに適した、軽量でリアルタイムなディーブラーニングモデルの開発。
魚眼周辺視界画像における移動物体のバイナリマスクを含む、最初の公開自動車用データセットの作成とリリース。
魚眼データにおけるMOD精度を向上させるための有効なトレーニングおよびデータ拡張戦略の調査。
静的と移動ピクセルの間のクラス不均衡問題を、重み付き交差エントロピー損失により克服すること。

提案手法

モデルは二ストリームエンコーダ・デコーダアーキテクチャを採用し、時間的に連続する二つの魚眼画像を処理することで、運動とセマンティック情報を統合的に符号化する。
エンコーダは、計算コストを低減しつつ精度を維持するためのポイントワイドグループ畳み込みとチャネルシャッフルを組み合わせたシャッフルネットに基づく。
特徴マップは3段階のデコンボリューション層を用いてアップサンプリングされ、移動対静的物体のピクセル単位のバイナリセグメンテーションマスクが生成される。
静的ピクセルが移動ピクセルを大幅に上回る深刻なクラス不均衡に対処するため、重み付き交差エントロピー損失が適用される。
二ストリームエンコーダ間で重み共有を実装することで、最小限の精度低下でモデルサイズと推論コストを削減する。
半自動アノテーションパイプラインは、LiDAR点群とカメラキャリブレーションを用いて、物体バウンディングボックスから真値バイナリマスクを生成する。

実験結果

リサーチクエスチョン

RQ1直線的（rectilinear）画像で学習したディーブラーニングモデルは、極端な歪みと非線形運動幾何学的特徴を示す魚眼カメラ入力に一般化可能か？
RQ2順次魚眼フレームに対するエンド・トゥ・エンド学習は、オプティカルフローに基づく手法と比較して、運動セグメンテーションにおいてどの程度有効か？
RQ3特に静的および移動物体シーンのバランスを取ったデータ拡張戦略が、魚眼データにおけるMOD精度に与える影響は？
RQ4二ストリームエンコーダ間の重み共有は、埋め込みプラットフォーム上で性能を劣化させることなく、どの程度モデル複雑度を低減可能か？
RQ51 TOPSの自動車用埋め込みシステム上で、提案手法のリアルタイム推論速度と精度はどの程度の水準にあるか？

主な発見

直線的画像で事前学習したモデルは、魚眼画像ではわずか10%のIoUにとどまり、魚眼幾何学的特徴への一般化が著しく劣っていることが示された。
新規データセットの3,638フレームの魚眼画像で学習を実施した結果、IoUは39.8%に向上し、ドメイン特化データが性能向上に不可欠であることが明らかになった。
静的および移動物体シーンのバランスを取ったデータ拡張を適用したことで、mIoUは70%、IoUは42%に上昇し、クラスバランスが検出のロバスト性向上に寄与することが示された。
二ストリームエンコーダ間の重み共有により、モデルサイズが削減され、IoUはわずか0.2%の低下にとどまり、埋め込みシステムへの効率的デプロイが可能になった。
最終的なモデルは1 TOPSの自動車用埋め込みシステム上で15 fpsで動作し、自律走行車両のリアルタイム要件を満たした。
主な失敗モードは、微小な動きを示す静的歩行者に対する誤検出であり、実世界データにおける運動閾値の定義の難しさを浮き彫りにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。