QUICK REVIEW

[論文レビュー] Semantically-Guided Representation Learning for Self-Supervised Monocular Depth

Vitor Guizilini, Rui Hou|arXiv (Cornell University)|Feb 27, 2020

Advanced Vision and Imaging参考文献 43被引用数 47

ひとこと要約

意味的に指示された自己監督モノキュラ深度推定法を紹介。固定された事前学習済みの意味特徴を用いて深度ネットワークのピクセル適応畳込みを導くとともに、動的オブジェクト上の無限深度バイアスを緩和する2段階学習スキームを提案し、KITTIで最先端の結果を達成。

ABSTRACT

Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.

研究の動機と目的

意味構造を活用して自己教師付きモノキュラー深度学習を改善する動機付け。
固定された事前学習済み意味セグメンテーション特徴を用いて深度特徴をピクセル適応畳込みで導くアーキテクチャの開発。
動的オブジェクト上の意味的バイアスに対処する二段階リサンプリング訓練プロセス。
KITTIでピクセル・意味カテゴリ・動的カテゴリ全体で深度精度の改善を実証。

提案手法

固定された事前学習済み意味セグメンテーションネットワークを用いて深度特徴学習をピクセル適応畳込みで導く。
3x3および1x1畳込み、GroupNorm、ELUを通じて処理された複数の意味特徴マップからの意味認識ガイダンスで深度特徴を表現。
意味的類似度がセマンティック特徴上のガウス核を介して空間畳込み重みを変調するピクセル適応畳込みを用いて深度特徴を計算。
フォトメトリック損失とエッジ認識深度損失、オートマスキング、逆深度アップサンプリングを組み合わせた自己教師付きSfM設定で深度/姿勢ネットワークを訓練。
二段階訓練レジームを実装: (1) 全データで訓練して無限深度バイアスを特定; (2) バイアスのある系列を除去するリサンプリングを行い、最初から再訓練。

実験結果

リサーチクエスチョン

RQ1固定された事前学習済みの意味ガイダンスは、ターゲットデータ上で意味的監督なしでも自己教師付きモノキュラー深度表現を改善できるか？
RQ2意味特徴に導かれたピクセル適応畳込みは、細かな構造や遠方のオブジェクトに対して深度推定を改善するか？
RQ3二段階データリサンプリング戦略は動的オブジェクト上の無限深度バイアスを効果的に緩和するか？
RQ4異なる深度ネットワークバックボーンにおいて、意味ガイダンスアプローチはどのように性能を発揮するか？

主な発見

手法	Abs Rel	Sq Rel	RMSE	RMSE log	delta<1.25	delta<1.25^2	delta<1.25^3
Garg et al. (2016)	0.152	1.226	5.849	0.246	0.784	0.921	0.967
Zou et al. (2018)	0.150	1.124	5.507	0.223	0.806	0.933	0.973
Godard et al. (2017)	0.141	1.186	5.677	0.238	0.809	0.928	0.969
Zhan et al. (2018)	0.135	1.132	5.585	0.229	0.820	0.933	0.971
Godard et al. (2018) R18 (M)	0.115	0.903	4.863	0.193	0.877	0.959	0.981
Godard et al. (2018) R50 (M)	0.112	0.851	4.754	0.190	0.881	0.960	0.981
Guizilini et al. (2019) MR (M)	0.108	0.727	4.426	0.184	0.885	0.963	0.983
Guizilini et al. (2019) HR (M)	0.104	0.758	4.386	0.182	0.895	0.964	0.982
Casser et al. (2019) S+Inst (M)	0.141	1.025	5.290	0.215	0.816	0.945	0.979
Chen et al. (2019) S+Sem (M)	0.118	0.905	5.096	0.211	0.839	0.945	0.977
Ochs et al. (2019) D+Sem (M)	0.116	0.945	4.916	0.208	0.861	0.952	0.968
Ours (MR) (M+Sem)	0.102	0.698	4.381	0.178	0.896	0.964	0.984
Ours (HR) (M+Sem)	0.100	0.761	4.270	0.175	0.902	0.965	0.982

意味ガイド付きアーキテクチャは KITTI の指標全般で最先端の自己教師付きモノキュラ深度法を一貫して上回る。
境界や遠方・細かな構造（例：ポール、交通標識）で深度推定を特に向上させる。
二段階訓練は動的オブジェクト上の無限深度バイアスを効果的に低減し、クラス平均Abs-Relを改善（例：車両、オートバイ）。
複数の深度ネットワークバックボーン（ResNet-18、ResNet-50、PackNet）でも、意味ガイダンスの有無に関わらず利得を生む。
意味情報やインスタンス情報を用いる手法と比較して、固定意味ガイダンスを用いる提案手法は競争力のある、あるいは優れた結果を達成する。
定性的には、深度マップは動的・遠方要素の境界がシャープで識別性が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。