[論文レビュー] Wasserstein Distances for Stereo Disparity Estimation
連続的な視差ネットワーク(CDN)を導入し、個々の視差値のオフセットを用いて分布を出力し、ワッサースタイン距離で訓練することで、視差/深度推定と下流の3D物体検出を改善する。
Existing approaches to depth or disparity estimation output a distribution over a set of pre-defined discrete values. This leads to inaccurate results when the true depth or disparity does not match any of these values. The fact that this distribution is usually learned indirectly through a regression loss causes further problems in ambiguous regions around object boundaries. We address these issues using a new neural network architecture that is capable of outputting arbitrary depth values, and a new loss function that is derived from the Wasserstein distance between the true and the predicted distributions. We validate our approach on a variety of tasks, including stereo disparity and depth estimation, and the downstream 3D object detection. Our approach drastically reduces the error in ambiguous regions, especially around object boundaries that greatly affect the localization of objects in 3D, achieving the state-of-the-art in 3D object detection for autonomous driving. Our code will be available at https://github.com/Div99/W-Stereo-Disp.
研究の動機と目的
- 離散視差ビンを超えた正確な深度/視差推定を動機づけ、深度が曖昧な境界領域を改善する。
- 離散視差集合に加えられるオフセットを介して連続視差値を出力するニューラルネットワークを提案する。
- 予測分布を真の視差分布と一致させるために、Wasserstein距離ベースの損失を開発する。
- 物体境界での深度の曖昧さを捉えるために、マルチモーダルな真の値の扱いを可能にする。
提案手法
- 各離散視差値に対してオフセットを予測することにより、視差の分布を出力する連続視差ネットワーク(CDN)を導入する。
- 標準的な回帰損失をWasserstein距離ベースの損失に置換し、予測視差分布と真の分布を直接一致させる。
- 各離散視差値に対して実数値のオフセットを予測し、質量をシフトして連続分布を得るオフセットサブネットワークを追加する。
- 真の視差を(潜在的にマルチモーダル)分布として表現し、Wasserstein距離(W1またはW2)を計算してモデルを訓練する。
- 近傍から分布を構築してマルチモーダルな真値を許容し、訓練には1D Wasserstein計算またはCDFベースの1D定式化を用いる。
実験結果
リサーチクエスチョン
- RQ1ニューラルネットワークは単一の整数視差値ではなく、連続的な視差分布を出力できるか?
- RQ2Wasserstein距離での学習は、特に深度が曖昧な物体境界で精度を向上させるか?
- RQ3視差ビンごとのオフセット予測の導入は、モダリティ処理と収束性にどう影響するか?
- RQ4マルチモーダルな真値が深度/視差推定の訓練効率と精度に与える影響は?
主な発見
- CDNはScene FlowおよびKITTI 2015でベースラインよりも視差誤差を小さくし、特に前景領域で優れている。
- オフセットとWasserstein損失を用いたモードベースの予測は境界画素推定を改善し、マルチモーダルな曖昧さを低減する。
- マルチモーダルな真値訓練は収束を速め、境界精度を向上させる。
- 視差の結果はCDNバリアントが複数の指標でベースラインのPSMNetおよびGANet Deepを上回ることを示し、CDNベースの深度を使用すると下流の3D物体検出の向上が大きい。
- MMトレーニングは収束を早め、境界で本質的にマルチモーダルな視差をより良く扱える。
- 物体境界での視差はCDNで改善され、定性的結果で前景と背景の境界がより鋭くなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。