Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Learning of Geometry and Context for Deep Stereo Regression

Alex Kendall, Hayk Martirosyan|arXiv (Cornell University)|Mar 13, 2017
Advanced Vision and Imaging参考文献 35被引用数 279
ひとこと要約

GC-Netは、3-D畳み込みとソフトアーグミンを用いて微分可能なコストボリュームを形成するエンドツーエンドの深層ステレオ回帰フレームワークを提示し、サブピクセルの視差とポスト処理なしでKITTIの最先端結果を達成します。

ABSTRACT

We propose a novel deep learning architecture for regressing disparity from a rectified pair of stereo images. We leverage knowledge of the problem's geometry to form a cost volume using deep feature representations. We learn to incorporate contextual information using 3-D convolutions over this volume. Disparity values are regressed from the cost volume using a proposed differentiable soft argmin operation, which allows us to train our method end-to-end to sub-pixel accuracy without any additional post-processing or regularization. We evaluate our method on the Scene Flow and KITTI datasets and on KITTI we set a new state-of-the-art benchmark, while being significantly faster than competing approaches.

研究の動機と目的

  • 整列されたステレオペアから各ピクセルの視差へのエンドツーエンドの写像を学習する。
  • 微分可能なコストボリュームを介してステレオ幾何を組み込む。
  • 高さ・幅・視差にわたる3-D畳み込みを通じて意味的文脈を活用する。
  • 微分可能なソフトアーグミンを用いてサブピクセル精度の視差を回帰する。
  • Scene Flowでの性能を示し、KITTIデータセットでベンチマークする。

提案手法

  • 残差ブロックを持つ共有2-D CNNを用いて左画像と右画像から単項特徴表現を学習する。
  • 特徴次元を保持しつつ視差レベル全体で左・右の単項特徴を連結してコストボリュームを構築する。
  • 高さ・幅・視差の文脈を統合してコストボリュームを正規化するために3-Dエンコーダ-デコーダを適用する。
  • 正規化されたコストボリュームから視差値を回帰するために微分可能なソフトアーグミンを使用する。
  • サブピクセル精度を達成するためにL1視差損失でエンドツーエンドに学習する(回帰損失と分類損失の選択肢を含む)。

実験結果

リサーチクエスチョン

  • RQ1整列されたステレオペアから幾何学的コストボリュームを活用しつつ、エンドツーエンド学習が各ピクセルの視差を効果的に回帰できるか?
  • RQ23-D畳み込みを介して広範な文脈情報を取り入れることが、ステレオ回帰の精度と頑健性を向上させるか?
  • RQ3微分可能なソフトアーグミンはポスト処理なしで正確なサブピクセル視差推定を提供できるか?
  • RQ4困難なシーンに対して、エンドツーエンドの訓練が意味論的・文脈的手がかりを学習することを可能にするか?

主な発見

  • 本モデルはKITTIベンチマークで最先端の結果を達成し、従来手法を上回る。
  • コストボリュームの3-D文脈的正規化は、単一样のアプローチに比べ視差精度を大幅に向上させる。
  • 回帰損失は、ハード/ソフト分類損失と比較して精度とサブピクセルの結果を改善する。
  • エンドツーエンドのGC-Netは、SGMのようなポスト処理を必要とするパッチベースの深層ステレオ法より優れている。
  • ソフトアーグミンは追加のポスト処理なしで微分可能なサブピクセル視差回帰を実現する。
  • 定性的結果は、反射、テクスチャなし、細い構造を処理するためにより広い文脈情報をネットワークが活用していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。