Skip to main content
QUICK REVIEW

[論文レビュー] Learning for Disparity Estimation through Feature Constancy

Zhengfa Liang, Yiliu Feng|arXiv (Cornell University)|Dec 4, 2017
Advanced Vision and Imaging参考文献 27被引用数 31
ひとこと要約

本論文は、特徴抽出、コスト計算、視差推定、精緻化の4段階を統合したエンド・ツー・エンドのディーブラーニングフレームワークを提案する。特徴の一貫性(feature constancy)を導入することで、特徴相関と再構成誤差を統合し、効果的な視差精緻化を可能にした。KITTI 2012およびKITTI 2015で最先端の性能を達成し、単一のGPUでわずか0.12秒の高速推論時間を実現した。

ABSTRACT

Stereo matching algorithms usually consist of four steps, including matching cost calculation, matching cost aggregation, disparity calculation, and disparity refinement. Existing CNN-based methods only adopt CNN to solve parts of the four steps, or use different networks to deal with different steps, making them difficult to obtain the overall optimal solution. In this paper, we propose a network architecture to incorporate all steps of stereo matching. The network consists of three parts. The first part calculates the multi-scale shared features. The second part performs matching cost calculation, matching cost aggregation and disparity calculation to estimate the initial disparity using shared features. The initial disparity and the shared features are used to calculate the feature constancy that measures correctness of the correspondence between two input images. The initial disparity and the feature constancy are then fed to a sub-network to refine the initial disparity. The proposed method has been evaluated on the Scene Flow and KITTI datasets. It achieves the state-of-the-art performance on the KITTI 2012 and KITTI 2015 benchmarks while maintaining a very fast running time.

研究の動機と目的

  • マッチングコスト計算、集積、視差計算、精緻化を別々の段階として扱う従来のCNNベースの視差一致手法の限界を解消し、性能が劣り、非効率である問題を是正すること。
  • 特に地上真値ラベルが入手できない領域(例:空、遠方の物体)における視差推定の精度を向上させること。
  • 視差精緻化を特徴の一貫性を用いて実装する統一されたネットワークアーキテクチャを導入し、視差一致の全ステップを同時に最適化可能にすること。
  • 特に地上真値のラベルがない領域においても、一般化性能とロバストネスを向上させること。
  • ベンチマークデータセットで最先端の性能を達成しつつ、高い計算効率を維持すること。

提案手法

  • ネットワークはまず、共有バックボーンを用いてステレオ画像ペアからマルチスケールの共有特徴を抽出する。
  • 視差推定ネットワーク(DES-net)は、共有特徴から得られる集積マッチングコストを用いて初期視差を計算する。
  • 特徴の一貫性は2つの構成要素で計算される:(1) 視差ごとの特徴相関(対応品質の評価)、(2) 初期視差を用いた特徴空間における再構成誤差(一貫性の測定)。
  • 精緻化サブネットワークは初期視差と特徴の一貫性を入力とし、精緻化された視差マップを予測する。
  • 全ネットワークはエンド・ツー・エンドで訓練され、視差推定と精緻化の両方を同時に最適化可能になる。
  • 精緻化プロセスは相関と再構成誤差の両方を活用し、学習の安定性と性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1特徴抽出、コスト計算、視差推定、精緻化の4段階を統合した統一されたディーブラーニングフレームワークにより、より良い性能が得られるか?
  • RQ2相関と再構成誤差を統合した特徴の一貫性は、ヒューリスティック的または別個の精緻化ネットワークに比べ、視差精緻化をどれほど効果的に支援するか?
  • RQ3本手法は、地上真値ラベルが存在しない困難な領域(例:空、オクルージョン領域)においても十分に一般化できるか?
  • RQ4特徴の一貫性の統合により、KITTIベンチマークにおいて先行研究の最先端手法に比べ、精度と効率が向上するか?
  • RQ5KITTI 2012およびKITTI 2015で優れた精度を達成しつつ、高い推論速度を維持できるか?

主な発見

  • 提案手法は、微調整なしでKITTI 2015でD1-all誤差2.19%、KITTI 2012で3.62%を達成し、両ベンチマークで最先端の性能を実現した。
  • 2回の精緻化反復を実行するiResNetモデルは、KITTI 2015でD1-all誤差2.19%、KITTI 2012で3.62%を達成し、CRLやDispNetCを含むすべての比較手法を上回った。
  • 単一のNvidia Titan X (Pascal) GPUで1枚あたりわずか0.12秒の非常に高速な推論時間を達成し、高い効率性を示した。
  • KITTI 2015からKITTI 2012への性能低下はたった1.18ポイントであり、CRL(2.15)やDispNetC(5.3)に比べ顕著に低い水準に抑えられ、優れた一般化能力を示した。
  • 定性的な結果から、本手法は滑らかな視差マップを生成し、他の手法が失敗する空や遠方の物体のような困難な領域でも詳細をよりよく保持していることがわかった。
  • 特徴の一貫性に基づく精緻化サブネットワークは、初期視差推定を一貫して改善し、iResNet-i2モデルを用いることでKITTI 2015のEPEが3.25から2.44に低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。