[論文レビュー] Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding
本稿では、すべての画素(移動対象や隠蔽領域を含む)における幾何的整合性を強制することで、3次元幾何(深度)、カメラの運動、光流を同時に推定する教師なし深層学習フレームワーク、EPC++を提案する。深度、運動、光流予測を包括的な3次元運動解析器と適応的整合性損失を介して統合することで、KITTI、Make3D、MPI Sintelのデータセットにおいて、深度推定、光流、オドメトリ、移動対象のセグメンテーション、シーンフローの各分野で最先端の性能を達成した。
Learning to estimate 3D geometry in a single frame and optical flow from consecutive frames by watching unlabeled videos via deep convolutional network has made significant progress recently. Current state-of-the-art (SoTA) methods treat the two tasks independently. One typical assumption of the existing depth estimation methods is that the scenes contain no independent moving objects. while object moving could be easily modeled using optical flow. In this paper, we propose to address the two tasks as a whole, i.e. to jointly understand per-pixel 3D geometry and motion. This eliminates the need of static scene assumption and enforces the inherent geometrical consistency during the learning process, yielding significantly improved results for both tasks. We call our method as "Every Pixel Counts++" or "EPC++". Specifically, during training, given two consecutive frames from a video, we adopt three parallel networks to predict the camera motion (MotionNet), dense depth map (DepthNet), and per-pixel optical flow between two frames (OptFlowNet) respectively. The three types of information are fed into a holistic 3D motion parser (HMP), and per-pixel 3D motion of both rigid background and moving objects are disentangled and recovered. Comprehensive experiments were conducted on datasets with different scenes, including driving scenario (KITTI 2012 and KITTI 2015 datasets), mixed outdoor/indoor scenes (Make3D) and synthetic animation (MPI Sintel dataset). Performance on the five tasks of depth estimation, optical flow estimation, odometry, moving object segmentation and scene flow estimation shows that our approach outperforms other SoTA methods. Code will be available at: https://github.com/chenxuluo/EPC.
研究の動機と目的
- 移動対象を伴う非剛性シーン条件下でも、深度推定と光流を独立したタスクとして扱う既存手法の限界を是正すること。
- 教師なし深度推定で一般的な静的シーン仮定を排除し、3次元幾何と運動を同時にモデル化すること。
- 包括的な3次元運動解析器を用いて、深度、運動、光流予測間の幾何的整合性を強制することで、一般化性と耐障害性を向上させること。
- マルチタスク整合性を活用することで、明示的な教師信号なしに正確な移動対象セグメンテーションとシーンフロー推定を可能にすること。
提案手法
- フレームワークは3つの並列ネットワークを用いる:エゴ運動を推定するMotionNet、密な深度マップを推定するDepthNet、連続フレーム間の光流を推定するOptFlowNet。
- 包括的な3次元運動解析器(HMP)は、画素単位の3次元運動を剛性背景、非剛性対象運動、隠蔽領域に分離する。
- 可視性と運動の剛性に基づいて、深度と光流からの監督を動的に重み付けする適応的整合性損失を導入し、一般化性を向上させる。
- 訓練戦略はタスク間の損失を適応的にバランスさせ、幾何と運動推定の両方の収束性と性能を向上させる。
- 視点合成を微分可能ワーピングを用いて実装し、元フレームとターゲットフレーム間の光度的一致性を深度と光流の監視に用いる。
- 可視性マップ(M_d > 3)をしきい値処理することでバイナリセグメンテーションマスクを生成し、正確な移動対象検出を実現する。
実験結果
リサーチクエスチョン
- RQ1深度、運動、光流の共同学習が、独立学習や2タスク学習と比較して、3つのタスクの性能向上に寄与するか?
- RQ2移動対象や隠蔽領域を伴うシーンにおいて、深度、運動、光流の幾何的整合性をどのように強制することで耐障害性を向上させられるか?
- RQ3異なる領域(例:非隠蔽領域では光流、隠蔽領域では深度)の強みを活かした適応的整合性損失が、一様なタスク間整合性を上回る性能を発揮するか?
- RQ4単眼監視のみで、ステレオベースの手法と同等の性能を深度推定および運動推定で達成できるか?
- RQ5共同フレームワークにより、教師付アノテーションなしに正確な移動対象セグメンテーションとシーンフロー推定が可能か?
主な発見
- EPC++ は KITTI 2012、KITTI 2015、Make3D、MPI Sintel の各データセットにおいて、深度推定、光流、オドメトリ、移動対象セグメンテーションの分野で最先端の性能を達成した。
- KITTI 2015 において、EPC++(モノ)はフォアグラウンドセグメンテーションの平均IoUが 0.50 を達成し、先行研究の説明可能マスク(0.38)と EPC(0.52)を上回った。
- 単眼の EPC++ モデルは、スケールの曖昧性があるにもかかわらず、ステレオベースの EPC と同等の性能(平均IoU 0.53 vs. 0.52)を達成し、共同モデリングの有効性を示した。
- シーンフロー評価において、EPC++(モノ)はバックグラウンドで D1 スコア 30.67、フォアグラウンドで 34.38 を達成し、先行のSoTA手法 EPC(ステレオ)の 23.62 と 27.38 を上回った。
- 適応的訓練戦略により、収束が速くなり、すべてのタスクおよびデータセットで一般化性能が向上した。
- 包括的な3次元運動解析器は、剛性、非剛性、隠蔽領域を効果的に分離し、画素単位の運動理解を正確に実現した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。