QUICK REVIEW

[論文レビュー] Learning Deep Correspondence through Prior and Posterior Feature Constancy

Zhengfa Liang, Yiliu Feng|arXiv (Cornell University)|Dec 4, 2017

Advanced Vision and Imaging参考文献 24被引用数 30

ひとこと要約

本論文は、特徴抽出、コスト計算、集約、視差推定および精緻化の4つのステップを1つのエンドツーエンドアーキテクチャに統合する統一された深層学習フレームワークを提案する。ベイジアン推論に基づく精緻化ネットワーク内で事前および事後の特徴一貫性を活用することにより、KITTI 2012およびKITTI 2015ベンチマークで最先端の精度を達成するとともに、高速な推論速度を実現した。

ABSTRACT

Stereo matching algorithms usually consist of four steps, including matching cost calculation, matching cost aggregation, disparity calculation, and disparity refinement. Existing CNN-based methods only adopt CNN to solve parts of the four steps, or use different networks to deal with different steps, making them difficult to obtain the overall optimal solution. In this paper, we propose a network architecture to incorporate all steps of stereo matching. The network consists of three parts. The first part calculates the multi-scale shared features. The second part performs matching cost calculation, matching cost aggregation and disparity calculation to estimate the initial disparity using shared features. The initial disparity and the shared features are used to calculate the prior and posterior feature constancy. The initial disparity, the prior and posterior feature constancy are then fed to a sub-network to refine the initial disparity through a Bayesian inference process. The proposed method has been evaluated on the Scene Flow and KITTI datasets. It achieves the state-of-the-art performance on the KITTI 2012 and KITTI 2015 benchmarks while maintaining a very fast running time.

研究の動機と目的

既存のCNNベースのステレオマッチング手法が各ステップを別々に処理するため、最適でない解が得られることの制限を解消すること。
ステレオマッチングの4つのコアステップ—特徴抽出、コスト計算、集約、視差精緻化—を1つのエンドツーエンドで学習可能なネットワークに統合すること。
精緻化段階において事前および事後の特徴一貫性を正則化信号として組み込むことで、視差推定の精度を向上させること。
標準ベンチマークで最先端の性能を達成しながらも、高い推論速度を維持すること。

提案手法

ネットワークはまず、共有バックボーンエンコーダーを用いてステレオ画像ペアからマルチスケールの共有特徴を抽出する。
2番目のモジュールは、マッチングコストを計算し、スケール間で集約し、共有特徴を用いて初期視差マップを予測する。
初期視差と共有特徴を用いて、事前および事後の特徴一貫性を計算し、視点間の特徴の一貫性をモデル化する。
精緻化サブネットワークは、初期視差と特徴一貫性信号を入力とし、ベイジアン推論を実行して視差マップを精緻化する。
全アーキテクチャはエンドツーエンドで訓練され、精緻化段階は特徴一貫性から導かれた確率的制約によってガイドされる。
学習された事前分布と事後分布を用いて、空間的および外観的一致性を両方活用する。

実験結果

リサーチクエスチョン

RQ1統一されたディープネットワークアーキテクチャが、ステレオマッチングの4つのステップを1つのエンドツーエンドパイプラインに効果的に統合できるか？
RQ2事前および事後の特徴一貫性を効果的にモデル化し、視差精緻化に活用する方法は何か？
RQ3特徴一貫性信号に対するベイジアン推論が、より正確で頑健な視差予測をもたらすか？
RQ4提案手法は、リアルタイム推論速度を維持しながらも、最先端の性能を達成できるか？

主な発見

提案手法はKITTI 2012ベンチマークで最先端の性能を達成し、精度面で従来手法を上回った。
KITTI 2015ベンチマークでは、比較されたすべての手法の中で最高の結果を達成し、優れた一般化性能を示した。
ネットワークは非常に高速な実行時間を維持しており、複雑さを考慮してもリアルタイム応用に適している。
事前および事後の特徴一貫性の統合により、テクスチャが乏しいまたは繰り返しパターンのある困難な領域における視差精緻化が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。