[論文レビュー] Forget About the LiDAR: Self-Supervised Depth Estimators with MED Probability Volumes
本論文は FAL-net を紹介します。軽量な自己監視型深度推定器である MED probability volumes(Mirrored Exponential Disparity)と Mirrored Occlusion Module(MOM)を用い、遮蔽を扱うことで、KITTI、CityScapes、Make3D においてパラメータ数が大幅に少なく、推論が高速で、最先端の結果を達成します。
Self-supervised depth estimators have recently shown results comparable to the supervised methods on the challenging single image depth estimation (SIDE) task, by exploiting the geometrical relations between target and reference views in the training data. However, previous methods usually learn forward or backward image synthesis, but not depth estimation, as they cannot effectively neglect occlusions between the target and the reference images. Previous works rely on rigid photometric assumptions or the SIDE network to infer depth and occlusions, resulting in limited performance. On the other hand, we propose a method to "Forget About the LiDAR" (FAL), for the training of depth estimators, with Mirrored Exponential Disparity (MED) probability volumes, from which we obtain geometrically inspired occlusion maps with our novel Mirrored Occlusion Module (MOM). Our MOM does not impose a burden on our FAL-net. Contrary to the previous methods that learn SIDE from stereo pairs by regressing disparity in the linear space, our FAL-net regresses disparity by binning it into the exponential space, which allows for better detection of distant and nearby objects. We define a two-step training strategy for our FAL-net: It is first trained for view synthesis and then fine-tuned for depth estimation with our MOM. Our FAL-net is remarkably light-weight and outperforms the previous state-of-the-art methods with 8x fewer parameters and 3x faster inference speeds on the challenging KITTI dataset. We present extensive experimental results on the KITTI, CityScapes, and Make3D datasets to verify our method's effectiveness. To the authors' best knowledge, the presented method performs the best among all the previous self-supervised methods until now.
研究の動機と目的
- 自己監視型の単一画像深度推定(SIDE)を LiDAR 監視なしで幾何学的関係を利用して計測する動機付け。
- MED probability volumes を提案し、深度を離散化された指数空間として表現して近距離と遠距離の物体をより適切に扱えるようにする。
- Mirrored Occlusion Module(MOM)を導入して、より効果的な深度学習のための正確な遮蔽マップを生成する。
- 二段階の訓練戦略(ビュー合成→SIDE ファインチューニング)により、軽量なネットワークで高い性能を得られることを示す。
提案手法
- 左視 image を MED depth probability volume にマップし、チャネル毎の softmax で MED 分布を得る 6-stage オートエンコーダを提案する。
- 不等間隔な深度ディスクリティゼーション(MED)を用いて depth bins を形成し、近傍・遠距離物体をより良くカバーできるようにする(Eq. 2)。
- MED ボリュームを用いて、warping と attention-weighted summation(Eq. 3)により右視を合成する。
- Mirrored Occlusion Module(MOM)を導入し、左/右の遮蔽マスクをビュー間で MED ボリュームをクロスワープすることで算出する(Eq. 4)。
- 二段階で訓練する:まずビュー合成を標準的な再構成損失と知覚損失で訓練し、次に深度のファインチューニングを遮蔽なし再構成、滑らかさ、そして鏡像損失(Eqs. 5–8)で行う。
- 遮蔽なし再構成損失を VGG19 特徴量と知覚損失を用いて適用し、エッジを保持する滑らかさを gamma パラメータで調整し、固定モデルを活用して可視部と遮蔽部を監督する専用の mirror loss を用いる。
実験結果
リサーチクエスチョン
- RQ1MED probability volumes は近距離と遠距離の物体の深度の離散化をより良く扱うことで深度推定を改善できるか。
- RQ2Mirrored Occlusion Module はビュー間の遮蔽を明示的にモデル化することで深度学習の自己監視を効果的に可能にするか。
- RQ3二段階の訓練戦略(ビュー合成→MOM を用いた深度推定)は、自己監視式 SIDE のエンドツーエンド訓練より有利か。
- RQ4提案手法は標準データセット(KITTI、CityScapes、Make3D)上で従来の自己-supervised、 semi-supervised、 fully-supervised 手法と比較してどのような性能か。
主な発見
- FAL-net は MED ボリュームを用いることで、KITTI、CityScapes、Make3D における自己監視型手法の中で最先端の結果を達成している。
- 本手法は従来の SOTA 手法と比較して約 8x fewer のパラメータで、KITTI では推論が約 3x 高速。
- 指数的深度離散化(MED)は線形間隔と比較して深度推定を改善し、近距離および遠距離の物体をより良く表現できる。
- MOM を用いた二段階訓練戦略は、遮蔽を意識した自己監視を提供することで深度学習を改善し、特に左側遮蔽領域で効果を発揮する。
- FAL-net は CityScapes や CityScapes と KITTI の jointly 学習時にも強い一般化性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。