QUICK REVIEW

[論文レビュー] Pyramid Stereo Matching Network

Jia-Ren Chang, Yong‐Sheng Chen|arXiv (Cornell University)|Mar 23, 2018

Advanced Vision and Imaging参考文献 27被引用数 64

ひとこと要約

PSMNetは空間ピラミッドプーリングと積み重ねられたhourglass型の3D CNNを導入してコストボリュームを形成および正規化し、エンドツーエンドのステレオマッチングを実現。KITTIデータセットで最先端の結果を達成。

ABSTRACT

Recent work has shown that depth estimation from a stereo pair of images can be formulated as a supervised learning task to be resolved with convolutional neural networks (CNNs). However, current architectures rely on patch-based Siamese networks, lacking the means to exploit context information for finding correspondence in illposed regions. To tackle this problem, we propose PSMNet, a pyramid stereo matching network consisting of two main modules: spatial pyramid pooling and 3D CNN. The spatial pyramid pooling module takes advantage of the capacity of global context information by aggregating context in different scales and locations to form a cost volume. The 3D CNN learns to regularize cost volume using stacked multiple hourglass networks in conjunction with intermediate supervision. The proposed approach was evaluated on several benchmark datasets. Our method ranked first in the KITTI 2012 and 2015 leaderboards before March 18, 2018. The codes of PSMNet are available at: https://github.com/JiaRenChang/PSMNet.

研究の動機と目的

ill-posedなステレオ領域でグローバルコンテクスト情報を活用して頑健な視差推定を動機づける。
ステレオマッチングのためのポスト処理を排除したエンドツーエンドのCNNアーキテクチャを開発する。
空間ピラミッドプーリングを通じて多スケールのコンテキストを取り入れ、特徴表現を豊かにする。
積み重ねられたhourglass型3D CNNと中間監視でコストボリュームを正規化する。

提案手法

左右画像から特徴を抽出する2つのウェイト共有CNNパイプラインを使用する。
多スケールの文脈特徴を形成するために空間ピラミッドプーリング（SPP）モジュールを適用する。
左特徴量と右特徴量を視差ごとに結合して4Dコストボリュームを構築する。
積み重ねられたhourglass型3D CNNアーキテクチャでコストボリュームを正規化し、回帰によって視差を推定する。
視差に対してソフトマックスベースの確率分布を用いた視差回帰を用い、視差に対して滑らかなL1損失で学習する。

実験結果

リサーチクエスチョン

RQ1SPPを介したマルチスケールのグローバルコンテキストを組み込むことは、難解な領域でのステレオマッチングを改善するか。
RQ2エンドツーエンドのステレオで基本的な3D-CNNよりも積み重ねられたhourglass型3D CNNはコストボリュームをより良く正規化できるか。
RQ3KITTIベンチマークにおける拡張畳み込みとピラミッドプーリングレベルの影響はどうか。
RQ4ポスト処理なしのエンドツーエンドステレオマッチングはKITTI 2012/2015で最先端手法と競合できるか。

主な発見

PSMNetは2018年3月18日以前にKITTI 2012とKITTI 2015のリーダーボードで最先端の結果を達成した。
SPPと積み重ねられたhourglass型3D CNNの併用は、特に難解な領域で視差精度を大幅に向上させる。
積み重ね型hourglassの設定における複数出力間での損失重み付けを改善すると検証精度が向上する。
Scene Flowでの1)10+時間の学習スケジュールとその後のKITTI微調整は、現実世界データへの強い一般化をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。