[論文レビュー] Practical Deep Stereo (PDS): Toward applications-friendly deep stereo matching
PDSはメモリ効率の高いボトルネックマッチングモジュールとサブピクセルMAP/クロスエントロピー損失を導入し、フルサイズ画像と柔軟な視差レンジでの訓練を可能にし、メモリ使用量を抑えつつ最先端の結果を達成する。
End-to-end deep-learning networks recently demonstrated extremely good perfor- mance for stereo matching. However, existing networks are difficult to use for practical applications since (1) they are memory-hungry and unable to process even modest-size images, (2) they have to be trained for a given disparity range. The Practical Deep Stereo (PDS) network that we propose addresses both issues: First, its architecture relies on novel bottleneck modules that drastically reduce the memory footprint in inference, and additional design choices allow to handle greater image size during training. This results in a model that leverages large image context to resolve matching ambiguities. Second, a novel sub-pixel cross- entropy loss combined with a MAP estimator make this network less sensitive to ambiguous matches, and applicable to any disparity range without re-training. We compare PDS to state-of-the-art methods published over the recent months, and demonstrate its superior performance on FlyingThings3D and KITTI sets.
研究の動機と目的
- エンドツーエンドのディープステレオネットワークのメモリフットプリントを削減し、より大きな画像コンテキストと実用的な展開を可能にする。
- 再訓練なしでテスト時に視差レンジの柔軟性を許容する。
- 新規の損失と推論戦略を通じて、サブピクセル精度と収束性を向上させる。
提案手法
- 結合された左・右の記述子を圧縮してコンパクトなマッチング署名に変換するボトルネックマッチングモジュールを導入する。
- コンパクトな署名を処理してコストボリュームを生成するアワーグラス正則化ネットワークを用いる。
- 推論にサブピクセルMAP推定器を用いて多峰後方分布に対処し、オンザフライで視差レンジの変更を可能にする。
- 収束を加速し精度を向上させるため、離散化されたラプラスターゲットを用いたサブピクセルクロスエントロピー損失を提案する。
- 大きなコンテキスト情報を活用するため、フルサイズ画像で訓練する。
- メモリを削減しフル画像訓練をサポートするため、インスタンス正規化で正規化する。
実験結果
リサーチクエスチョン
- RQ1精度を損なうことなく、深層ステレオネットワークのメモリフットプリントを削減できるか?
- RQ2フルサイズ画像での訓練は文脈的マッチング性能を改善するか?
- RQ3再訓練なしにテスト時に視差レンジを変更しても精度を維持できるか?
- RQ4サブピクセルMAP推論とサブピクセルクロスエントロピー損失は、多峰後方分布への頑健性と収束速度を改善するか?
主な発見
| 方法 | パラメータ | メモリ | 3EP | MAE | 変更 |
|---|---|---|---|---|---|
| PDS (proposed) | 2.2 | 0.4 | 3.38 | 1.12 | ✓ |
| PSM Chang and Chen (2018) | 5.2 | 0.6 | n/a | 1.09 | ✗ |
| CRL Pang et al. (2017) | 78 | 0.2 | 6.20 | 1.32 | ✗ |
| iResNet-i2 Liang et al. (2018) | 43 | 0.2 | 4.57 | 1.40 | ✗ |
| DispNetCorr1D Mayer et al. (2016) | 42 | 0.1 | n/a | 1.68 | ✗ |
| LRCR Jie et al. (2018) | 30 | 9.0 | 8.67 | 2.02 | ✗ |
| GC Kendall et al. (2017) | 3.5 | 4.5 | 9.34 | 2.02 | ✗ |
- PDSはFlyingThings3Dの比較対象法の中で最小の3PEと2番目に小さいMAEを達成。
- PDSは最小のメモリフットプリントと少数のパラメータを持ちながら、再訓練なしで異なる視差レンジを可能にする。
- フルサイズ画像での訓練は、特に大きな画像コンテキストを使用する場合に性能を向上させる。
- 推論時にSoftArgminからサブピクセルMAPへ切替えると、多峰性エラーが低減され、視差レンジを拡張しても性能を維持する。
- サブピクセルクロスエントロピーはサブピクセルMAPと組み合わせることで収束を速め、3PEを改善し、MAEの変化は控えめ。
- KITTIベンチマークでは、報告された比較でPDSはKITTI’15で3位、KITTI’12で4位である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。