QUICK REVIEW

[論文レビュー] Self-Supervised Learning for Stereo Matching with Self-Improving Ability

Yiran Zhong, Yuchao Dai|arXiv (Cornell University)|Sep 4, 2017

Advanced Vision and Imaging参考文献 9被引用数 154

ひとこと要約

この論文は、 ground-truthマップなしでステレオ対から密な視差を学習する自己教師付きのエンドツーエンドのステレオマッチングネットワークを提案します。画像ワーピング損失とループ整合性を用い、新環境でオンライン自己改善を行います。

ABSTRACT

Exiting deep-learning based dense stereo matching methods often rely on ground-truth disparity maps as the training signals, which are however not always available in many situations. In this paper, we design a simple convolutional neural network architecture that is able to learn to compute dense disparity maps directly from the stereo inputs. Training is performed in an end-to-end fashion without the need of ground-truth disparity maps. The idea is to use image warping error (instead of disparity-map residuals) as the loss function to drive the learning process, aiming to find a depth-map that minimizes the warping error. While this is a simple concept well-known in stereo matching, to make it work in a deep-learning framework, many non-trivial challenges must be overcome, and in this work we provide effective solutions. Our network is self-adaptive to different unseen imageries as well as to different camera settings. Experiments on KITTI and Middlebury stereo benchmark datasets show that our method outperforms many state-of-the-art stereo matching methods with a margin, and at the same time significantly faster.

研究の動機と目的

ステレオマッチングにおける ground-truth 視差マップへの依存を解消する。
監視なしでステレオ入力から密な視差を学習するエンドツーエンドのネットワークを提案する。
単純解を避けるために画像ワーピングベースの損失と3D特徴正則化を導入する。
見慣れない画像やカメラ設定へのオンライン適応による自己改善を可能にする。

提案手法

残差18層3x3CNNを用いて局所特徴を抽出し、64チャンネル特徴を生成する。
視差範囲全体で左特徴と右特徴を結合してクロスビュー特徴ボリュームを構築する。
Res-TDM（残差接続型トップダウンモジュール）を用いた3D特徴マッチングを行い、3D視差ボリュームを生成する。
Soft-Argmin演算を用いて3Dボリュームを2D視差マップへ射影する。
左・右画像間のワーピング品質を評価し、フォトメトリック損失、勾配損失、およびSSIMベースの損失を監督として用いる。
ループ整合性損失と最大深度ヒューリスティックを組み込み、テクスチャなし領域を扱い対称性制約を強制する。

実験結果

リサーチクエスチョン

RQ1自己監視を用いてground-truth深度マップなしで dense stereo 視差を学習できるか？
RQ2画像再構成（ワーピング）誤差はエンドツーエンドのステレオ学習を監督するのに十分か？
RQ33D特徴空間の正則化とループ整合性は、テクスチャレス領域で性能をどう改善するか？
RQ4ラベル付きデータなしで、見慣れないシーンやカメラ設定にオンライン適応できるか？

主な発見

自己監視ネットワークは、ground-truth視差なしでKITTIおよびMiddleburyベンチマークで競争力の性能を達成する。
新しいステレオデータにさらされると自己改善（オンライン適応）能力を示す。
推論時間はステレオ対には実用的で、オンラインファインチューニングをオプションとすると実行時間が増加する。
ループ整合性と3D正則化は、テクスチャなしまたは難しい領域での退化解を緩和するのに役立つ。
この手法はKITTIで学習したモデルからMiddleburyへ適応し、オンライン反復後に顕著な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。