QUICK REVIEW

[論文レビュー] SfM-Net: Learning of Structure and Motion from Video

Sudheendra Vijayanarasimhan, Susanna Ricco|arXiv (Cornell University)|Apr 25, 2017

Advanced Vision and Imaging参考文献 27被引用数 353

ひとこと要約

SfM-Netは、動画から深度・カメラ運動・物体運動を共同学習する幾何認識型ニューラルネットワークであり、深度・自己運動の監視を任意に付加した自己教師付きのStructure-from-Motionを可能にする。

ABSTRACT

We propose SfM-Net, a geometry-aware neural network for motion estimation in videos that decomposes frame-to-frame pixel motion in terms of scene and object depth, camera motion and 3D object rotations and translations. Given a sequence of frames, SfM-Net predicts depth, segmentation, camera and rigid object motions, converts those into a dense frame-to-frame motion field (optical flow), differentiably warps frames in time to match pixels and back-propagates. The model can be trained with various degrees of supervision: 1) self-supervised by the re-projection photometric error (completely unsupervised), 2) supervised by ego-motion (camera motion), or 3) supervised by depth (e.g., as provided by RGBD sensors). SfM-Net extracts meaningful depth estimates and successfully estimates frame-to-frame camera rotations and translations. It often successfully segments the moving objects in the scene, even though such supervision is never provided.

研究の動機と目的

フレーム間のモーションを深度・カメラ運動・剛体運動を持つ物体運動に分解するニューラルモデルを開発する。
単眼ビデオからのエンドツーエンド学習を、微分可能なレンダリング/ワーピングとフォトメトリック整合性を用いて実現する。
完全無監視から深度監視または自己運動監視学習まで、複数の監視モードをサポートする。
KITTIやMoSegなどの実データセット上で、深度推定、モーション分割、カメラ運動復元を実証する。

提案手法

畳み込み/デコンボリューションネットワークを用いて、単一フレームからフレームごとの深度を予測する。
ダイナミックオブジェクトのためのK個のモーションマスクと対応する3Dモーション、さらにグローバルなカメラ運動を予測する。
深度から3D点群を構築し、それを物体とカメラの運動で変換してから2Dへ射影し、密な光学フローを形成する。
微分可能な後方ワープにより次のフレームをワープさせ、フォトメトリック整合性を最適化する（自己監視）。
前方・後方の深度整合性を課し、使用可能なら深度/カメラ/オブジェクト監視を適用する（例：Kinect）。
K=3のモーションマスクを用い、部分的/重なりを許すようマスクはシグモイド活性化で生成する。

実験結果

リサーチクエスチョン

RQ1単眼ビデオから深度・カメラ運動・物体運動を同時に回復するニューラルネットワークは実現できるか？
RQ2動く物体を明示的にモデリングすることは、制約のない動画における自己教師付き深度とモーション学習にどのような影響を与えるか？
RQ3実世界のシーケンスにおいて、どの監督レベル（無監視、深度監督、自己運動監督）が深度とモーション推定を改善するか？

主な発見

アプローチ	対数RMSE	KITTI 2012	KITTI 2015
with stereo pairs	0.31	0.31	0.34
seq. with motion masks	0.45	0.45	0.41
seq. without motion masks	0.77	0.77	1.25

KITTIとMoSegでの自己教師付き学習は、完全な監視なしに深度とモーション推定を実証する。
物体運動モデリングなしでは深度性能が低下する；モーションマスクを含めるとKITTI 2015で結果が改善する（動く物体が多い）。
定性的な結果は、モーションマスクが多くの動く物体と一致し、モーション場の一部を説明することを示すが、小さな物体や遠くの物体は見落とされることがある。
RGB-D監督（地真深度またはポーズ）は、KITTI RGB-D SLAMデータ上でカメラ運動推定と深度品質を改善する。
モデルはフレーム間の自己運動と3D物体運動を回復し、整合性のあるシーンフローと光学フロー場を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。