QUICK REVIEW

[論文レビュー] SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware Feature Extraction

Jaehoon Choi, Dongki Jung|arXiv (Cornell University)|Oct 6, 2020

Advanced Vision and Imaging参考文献 61被引用数 32

ひとこと要約

SAFENet はマルチタスク学習を通じて意味認識深度特徴を統合することで自己教師付きモノ深度推定を改善し、KITTI で最先端の結果を達成し、悪条件下での一般化性能を向上させる。

ABSTRACT

Self-supervised monocular depth estimation has emerged as a promising method because it does not require groundtruth depth maps during training. As an alternative for the groundtruth depth map, the photometric loss enables to provide self-supervision on depth prediction by matching the input image frames. However, the photometric loss causes various problems, resulting in less accurate depth values compared with supervised approaches. In this paper, we propose SAFENet that is designed to leverage semantic information to overcome the limitations of the photometric loss. Our key idea is to exploit semantic-aware depth features that integrate the semantic and geometric knowledge. Therefore, we introduce multi-task learning schemes to incorporate semantic-awareness into the representation of depth features. Experiments on KITTI dataset demonstrate that our methods compete or even outperform the state-of-the-art methods. Furthermore, extensive experiments on different datasets show its better generalization ability and robustness to various conditions, such as low-light or adverse weather.

研究の動機と目的

Ground-truth depths を活用せずに意味情報を活用して深度推定を改善する動機づけ。
フォトメトリック損失の限界を緩和するためにマルチタスク学習を通じて意味認識深度特徴を開発する。
深度とセマンティクスのタスク間の干渉を減らすため、タスク固有と共有コンポーネントを備えたエンコーダを設計する。
意味的親和性を深度特徴へ注入するクロス-タスク情報経路を提供する。
低光量および悪天候条件下での頑健性と一般化を示す。

提案手法

共有エンコーダと深度およびセグメンテーションの2つのデコーダを持つマルチタスクネットワークを提案する。
専用モジュール（CPUとAPU）を介して深度表現とセマンティック情報を組み合わせることで意味認識深度特徴を用いる。
セマンティック親和性伝播を組み込み、セグメンテーション特徴から学習された意味的親和性マトリクス（APU）を介して深度特徴を導く。
タスク固有の残差アダプタとSEブロックを適用し、干渉なしにタスク共有およびタスク固有の特徴学習を可能にする。
1x1畳み込みを介してクロス-タスク情報を融合し、深度デコーダとセグメンテーションデコーダ間の特徴共有を制御可能にする。
自己教師付きフォトメトリック損失に深度滑らかさ損失と意味セグメンテーション損失を加え、エンドツーエンド最適化を可能にする。

実験結果

リサーチクエスチョン

RQ1意味認識特徴抽出はフォトメトリック損失だけに比べ自己教師ありモノ深度推定を改善できるか？
RQ2深度と意味的セグメンテーション間で有用な表現を共有しつつ、タスク干渉を最小化するためのマルチタスク学習はどのように構成すべきか？
RQ3意味認識深度特徴は低照度・霧・雨などの厳しい条件で深度のみの手法より一般化が良いか？
RQ4KITTI での深度精度およびクロスデータセット一般化（Virtual KITTI、nuScenes）に対する意味监督の影響は？

主な発見

手法	Abs Rel	Sq Rel	RMSE	RMSE log	delta<1.25	delta<1.25^2	delta<1.25^3
Zhou et al. 2017 (Unsupervised depth from video)	0.183	1.595	6.709	0.270	0.734	0.902	0.959
LEGO (edge with geometry)	0.162	1.352	6.276	0.252	-	-	-
GeoNet (unsupervised depth/pose)	0.149	1.060	5.567	0.226	0.796	0.935	0.975
DF-Net	0.150	1.124	5.507	0.223	0.806	0.933	0.973
EPC++	0.141	1.029	5.350	0.216	0.816	0.941	0.976
Struct2depth	0.141	1.026	5.291	0.215	0.816	0.945	0.979
SC-SfMLearner	0.137	1.089	5.439	0.217	0.830	0.942	0.975
CC (depth & pose)	0.140	1.070	5.326	0.217	0.826	0.941	0.975
SIGNet	0.133	0.905	5.181	0.208	0.825	0.947	0.981
GLNet	0.135	0.913?	5.230	0.210	0.841	0.948	0.980
Monodepth2	0.115	0.903	4.863	0.193	0.877	0.959	0.981
Guizilini, ResNet18	0.117	0.854	4.714	0.191	0.873	0.963	0.981
Johnston, ResNet101	0.106	0.861	4.699	0.185	0.889	0.962	0.982
SGDepth, ResNet18	0.113	0.835	4.693	0.191	0.879	0.961	0.981
SAFENet (640x192)	0.112	0.788	4.582	0.187	0.878	0.963	0.983
SAFENet (1024x320)	0.106	0.743	4.489	0.181	0.884	0.965	0.984

SAFENet は ground-truth depths を用いず自己教師ありモノ深度推定で KITTI で最先端の結果を達成。
SAFENet は 1024x320 入力の時、Abs Rel 0.106, Sq Rel 0.743, RMSE 4.489, delta<1.25 が 0.884 で KITTI で、いくつかのベースラインを上回っている。
意味認識深度特徴は vKITTI 上で悪天候（霧、雨）下の頑健性を Monodepth2 with SE モジュールと比較して向上させる。
データセットや条件を跨いで、SAFENet はより良い一般化を示し、照明や天候の変化でRGB手掛かりが劣化しても深度品質を維持する。
アブレーション研究は CPU（深度-to-意味特徴共有）と APU（親和性伝播）の双方が利得に寄与し、完全なモジュラー共有が最良の結果をもたらすことを示している。
クラス別分析はほとんどの意味カテゴリ（空を除く）で深度精度の改善と、動く物体の扱いの改善を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。