QUICK REVIEW

[論文レビュー] Learning Monocular Depth by Distilling Cross-domain Stereo Networks

Xiaoyang Guo, Hongsheng Li|arXiv (Cornell University)|Aug 20, 2018

Advanced Vision and Imaging参考文献 4被引用数 35

ひとこと要約

本論文は、合成データで事前学習されたクロスドメインステレオマッチングネットワークから知識蒸留を行うことで、合成データと実世界データの間のドメインギャップを効果的に低減する、新しい単眼深度推定フレームワークを提案する。この手法により、ステレオネットワークをプロキシとして活用し、オクルージョン対処法と境界の鋭さを向上させる非教師ありファインチューニング戦略を導入することで、KITTIデータセットで最先端の性能を達成した。

ABSTRACT

Monocular depth estimation aims at estimating a pixelwise depth map for a single image, which has wide applications in scene understanding and autonomous driving. Existing supervised and unsupervised methods face great challenges. Supervised methods require large amounts of depth measurement data, which are generally difficult to obtain, while unsupervised methods are usually limited in estimation accuracy. Synthetic data generated by graphics engines provide a possible solution for collecting large amounts of depth data. However, the large domain gaps between synthetic and realistic data make directly training with them challenging. In this paper, we propose to use the stereo matching network as a proxy to learn depth from synthetic data and use predicted stereo disparity maps for supervising the monocular depth estimation network. Cross-domain synthetic data could be fully utilized in this novel framework. Different strategies are proposed to ensure learned depth perception capability well transferred across different domains. Our extensive experiments show state-of-the-art results of monocular depth estimation on KITTI dataset.

研究の動機と目的

単眼深度推定における合成データと実世界データの間のドメインギャップを解消すること。
高価な真値深度アノテーションを必要とする教師あり手法の制限と、一般化性能が低くオクルージョン誤差が大きい非教師あり手法の課題を克服すること。
合成データで学習されたステレオマッチングネットワークの強力な一般化能力を活用し、単眼深度学習を支援すること。
合成データをプロキシとして用い、ステレオネットワークから単眼ネットワークへの深度認識の知識蒸留パイプラインを構築すること。
オクルージョン対処法と境界保持性の向上に寄与する新しいファインチューニング戦略を導入することで、KITTIなどの実世界ベンチマークでの性能を向上させること。

提案手法

合成データのScene Flowを用いて、ステレオマッチングネットワーク（DispNetバージョン）を訓練し、視差マップとオクルージョンマスクを予測する。
オクルージョンを明示的に処理し、滑らかさ正則化を改善する新しい非教師あり損失関数を用いて、実データのKITTIデータ上でステレオネットワークをファインチューニングする。
ファインチューニング済みステレオネットワーク（教師）を用いて、知識蒸留により単眼深度推定ネットワークを監督する。
ステレオ入力に対してクロッピングやリサイズなどのデータ拡張を適用し、ロバストネスを向上させ、過学習を軽減する。
ノイズの多い予測をフィルタリングする自信あり監視メカニズムを導入し、蒸留品質を向上させる。
ステレオネットワークからの蒸留監視を用いて、単眼深度ネットワークをエンドツーエンドで訓練し、実世界シーンへの強力な一般化能力を実現する。

実験結果

リサーチクエスチョン

RQ1合成データで事前学習されたステレオマッチングネットワークは、実世界シナリオにおける単眼深度推定の監視に効果的なプロキシとして機能するか？
RQ2実世界深度アノテーションを一切不要として、合成データと実データの間のドメインギャップを効果的に緩和できるか？
RQ3どのようなファインチューニング戦略が、特にオクルージョン領域において、より良い一般化性能と鋭い予測を実現できるか？
RQ4合成データで学習したステレオネットワークからの蒸留は、実データで直接単眼ネットワークを学習するのと比較して、精度と境界保持性の面で優れているか？
RQ5提案されたパイプラインは、KITTIに加えてMake3D や Cityscapes といった他のデータセットに対しても、最小限の適応で一般化可能か？

主な発見

提案手法はKITTIデータセットで最先端の性能を達成し、Eigen分割において平均絶対誤差（Abs）が0.061、相対誤差（Rel）が0.144を記録した。
非教師ありファインチューニング戦略により、オクルージョン対処法と境界の鋭さが顕著に向上し、定量的・定性的に先行する非教師あり手法を上回った。
わずか100枚の実画像を用いた教師ありファインチューニングでも、非教師ありファインチューニング版（StereoUnsupFt）を上回る性能を示した。
蒸留された単眼深度モデル（StereoUnsupFt→Mono）は、KITTIで平均絶対誤差0.105、相対誤差0.189を達成し、以前のSOTA手法を上回った。
このパイプラインは他のデータセットにも良好に一般化された：Make3D および Cityscapes でも競争力のある結果を達成し、ドメイン間の高い転送性を示した。
PSMNetなどのより高度なステレオネットワークをプロキシとして用いることで性能が向上したため、今後のステレオマッチングの進展にも容易に統合可能であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。