QUICK REVIEW

[論文レビュー] Self-supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth, and Camera

Yuhua Chen, Cordelia Schmid|arXiv (Cornell University)|Jul 12, 2019

Advanced Vision and Imaging参考文献 56被引用数 26

ひとこと要約

GLNet は、エピポラ幾何やフォトメトリック一貫性などの幾何制約を強制することで、モノクロナル動画から深度、オプティカルフロー、カメラポーズ、内部パrameterを同時に推定する自己教師付き深層学習フレームワークである。KITTI および Cityscapes で最先端の性能を達成し、オンラインリファインメントとキャリブレーションなし動画への適応により、特に精度と頑健性が顕著に向上している。

ABSTRACT

We present GLNet, a self-supervised framework for learning depth, optical flow, camera pose and intrinsic parameters from monocular video - addressing the difficulty of acquiring realistic ground-truth for such tasks. We propose three contributions: 1) we design new loss functions that capture multiple geometric constraints (eg. epipolar geometry) as well as an adaptive photometric loss that supports multiple moving objects, rigid and non-rigid, 2) we extend the model such that it predicts camera intrinsics, making it applicable to uncalibrated video, and 3) we propose several online refinement strategies that rely on the symmetry of our self-supervised loss in training and testing, in particular optimizing model parameters and/or the output of different tasks, thus leveraging their mutual interactions. The idea of jointly optimizing the system output, under all geometric and photometric constraints can be viewed as a dense generalization of classical bundle adjustment. We demonstrate the effectiveness of our method on KITTI and Cityscapes, where we outperform previous self-supervised approaches on multiple tasks. We also show good generalization for transfer learning in YouTube videos.

研究の動機と目的

実世界の教師付きラベルが存在しないモノクロナル動画から3次元シーン幾何を学習する課題に対処する。
LiDAR などの高価なデータ収集に依存する教師あり手法や、合成データにおけるドメインシフトの問題を克服する。
エピポラ制約やマルチビュー一貫性などの幾何的事前知識を深層学習フレームワークに統合し、幾何的一致性と一般化性能を向上させる。
深度、フロー、ポーズ、カメラ内部パラメータをエンドツーエンドで同時に最適化可能にし、トレーニングと推論の非対称性を解消するオンラインリファインメントを実装する。
キャリブレーションなし動画に対応するため、内部パラメータをエンドツーエンドで予測可能にし、実世界や多様なテストドメインへの移行性を高める。

提案手法

写真的一致性と幾何制約（例：エピポラ幾何）を組み合わせた新しい自己教師付き損失を提案し、画像ペア間の一貫性を強制する。
オプティカルフローを活用して深度とポーズ予測の時間的一致性を強制するマルチビュー構造的一致性損失を導入する。
エピポラ制約に基づく微分可能な幾何損失を設計し、剛体運動推定の正則化とフローデータの品質向上を図る。
ネットワークを拡張してカメラ内部パラメータをエンドツーエンドで予測可能にし、事前のキャリブレーションなしにキャリブレーションなし動画に適用可能にする。
PFT および OFT というオンラインリファインメント戦略を導入し、すべての幾何的・フォトメトリック制約下でモデルパラメータと出力を同時に最適化する。これは、密な微分可能かつバンドル調整に類似した手法である。
自己教師付き損失の対称性を活用して、推論時における効率的な適応を可能にし、リファインメントで最大10倍の高速化を達成する。

実験結果

リサーチクエスチョン

RQ1エピポラ幾何などの幾何制約を、自己教師付き深層学習フレームワークに効果的に統合できるか？その結果、モノクロナル動画からの3次元再構成性能が向上するか？
RQ2深度、フロー、ポーズ、内部パラメータを同時に最適化することで、独立的または弱い結合学習に比べ、性能と一般化性能がどのように向上するか？
RQ3オンラインリファインメント戦略は、トレーニングと推論の非対称性をどれほど解消できるか？実世界への展開における頑健性と精度向上に寄与するか？
RQ41つのデータセット（例：KITTI）で学習した自己教師付きモデルが、異なるドメイン（例：YouTube）のキャリブレーションなし動画に効果的に一般化できるか？特に内部パラメータが未知の状況でも有効か？
RQ5内部パラメータをエンドツーエンドで予測することで、固定または事前キャリブレーション済みの内部パラメータと比較して、性能と適応性が向上するか？

主な発見

GLNet は深度推定において KITTI で最先端の性能を達成し、ベースライン比で相対的に 1.2% の向上を示し、先行する自己教師付き手法を上回っている。
オプティカルフローの評価では、非遮蔽領域（Noc）で平均終点誤差（EPE）4.86、全領域（All）で8.35を達成し、ベースライン（6.80 および 12.28）を大きく上回り、FlowNetS などの教師ありモデルと同等またはそれを上回っている。
エピポラ制約損失がフロー向上に最も寄与しており、ベースライン比で EPE を 1.3 点以上低減している。定性的な結果から、明確な剛体運動推定が得られている。
KITTI オドメトリーベンチマークにおけるポーズ推定では、シーケンス 09 で ATE 0.011 ± 0.006、シーケンス 10 で 0.011 ± 0.009 を達成し、先行する自己教師付き手法を上回り、ORB-SLAM や GeoNet と同等またはそれを上回っている。
PFT および OFT を用いたオンラインリファインメントにより、フォワードプロパゲーションの予測性能が顕著に向上し、OFT は PFT に匹敵する品質を達成しながら最大 10 倍の高速化を実現しており、実用的かつ実装可能であることが示された。
GLNet はキャリブレーションなし動画（例：YouTube）に対しても良好に一般化し、内部パラメータが事前に不明な状況でも強力な性能を維持している。エンドツーエンドでの内部パラメータ予測と幾何的正則化の有効性が、転移学習において確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。