Skip to main content
QUICK REVIEW

[論文レビュー] SfM-Net: Learning of Structure and Motion from Video

Sudheendra Vijayanarasimhan, Susanna Ricco|arXiv (Cornell University)|Apr 25, 2017
Advanced Vision and Imaging参考文献 27被引用数 353
ひとこと要約

SfM-Netは、動画から深度・カメラ運動・物体運動を共同学習する幾何認識型ニューラルネットワークであり、深度・自己運動の監視を任意に付加した自己教師付きのStructure-from-Motionを可能にする。

ABSTRACT

We propose SfM-Net, a geometry-aware neural network for motion estimation in videos that decomposes frame-to-frame pixel motion in terms of scene and object depth, camera motion and 3D object rotations and translations. Given a sequence of frames, SfM-Net predicts depth, segmentation, camera and rigid object motions, converts those into a dense frame-to-frame motion field (optical flow), differentiably warps frames in time to match pixels and back-propagates. The model can be trained with various degrees of supervision: 1) self-supervised by the re-projection photometric error (completely unsupervised), 2) supervised by ego-motion (camera motion), or 3) supervised by depth (e.g., as provided by RGBD sensors). SfM-Net extracts meaningful depth estimates and successfully estimates frame-to-frame camera rotations and translations. It often successfully segments the moving objects in the scene, even though such supervision is never provided.

研究の動機と目的

  • フレーム間のモーションを深度・カメラ運動・剛体運動を持つ物体運動に分解するニューラルモデルを開発する。
  • 単眼ビデオからのエンドツーエンド学習を、微分可能なレンダリング/ワーピングとフォトメトリック整合性を用いて実現する。
  • 完全無監視から深度監視または自己運動監視学習まで、複数の監視モードをサポートする。
  • KITTIやMoSegなどの実データセット上で、深度推定、モーション分割、カメラ運動復元を実証する。

提案手法

  • 畳み込み/デコンボリューションネットワークを用いて、単一フレームからフレームごとの深度を予測する。
  • ダイナミックオブジェクトのためのK個のモーションマスクと対応する3Dモーション、さらにグローバルなカメラ運動を予測する。
  • 深度から3D点群を構築し、それを物体とカメラの運動で変換してから2Dへ射影し、密な光学フローを形成する。
  • 微分可能な後方ワープにより次のフレームをワープさせ、フォトメトリック整合性を最適化する(自己監視)。
  • 前方・後方の深度整合性を課し、使用可能なら深度/カメラ/オブジェクト監視を適用する(例:Kinect)。
  • K=3のモーションマスクを用い、部分的/重なりを許すようマスクはシグモイド活性化で生成する。

実験結果

リサーチクエスチョン

  • RQ1単眼ビデオから深度・カメラ運動・物体運動を同時に回復するニューラルネットワークは実現できるか?
  • RQ2動く物体を明示的にモデリングすることは、制約のない動画における自己教師付き深度とモーション学習にどのような影響を与えるか?
  • RQ3実世界のシーケンスにおいて、どの監督レベル(無監視、深度監督、自己運動監督)が深度とモーション推定を改善するか?

主な発見

アプローチ対数RMSEKITTI 2012KITTI 2015
with stereo pairs0.310.310.34
seq. with motion masks0.450.450.41
seq. without motion masks0.770.771.25
  • KITTIとMoSegでの自己教師付き学習は、完全な監視なしに深度とモーション推定を実証する。
  • 物体運動モデリングなしでは深度性能が低下する;モーションマスクを含めるとKITTI 2015で結果が改善する(動く物体が多い)。
  • 定性的な結果は、モーションマスクが多くの動く物体と一致し、モーション場の一部を説明することを示すが、小さな物体や遠くの物体は見落とされることがある。
  • RGB-D監督(地真深度またはポーズ)は、KITTI RGB-D SLAMデータ上でカメラ運動推定と深度品質を改善する。
  • モデルはフレーム間の自己運動と3D物体運動を回復し、整合性のあるシーンフローと光学フロー場を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。