QUICK REVIEW

[論文レビュー] Semantically-Guided Representation Learning for Self-Supervised Monocular Depth

Vitor Guizilini, Rui Hou|arXiv (Cornell University)|Feb 27, 2020

Advanced Vision and Imaging被引用数 107

ひとこと要約

本論文は、ピクセル適応畳み込みを介して固定事前学習済みの意味特徴を用い、深度表現を改善する意味論的ガイド付きの自己教師あり単眼深度推定フレームワークを提案し、動的オブジェクトのバイアスを緩和する2段階の学習を追加する。

ABSTRACT

Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.

研究の動機と目的

固定された事前学習済みの意味セグメンテーションを活用して、自己教師あり単眼深度学習を導く。
ピクセル適応畳み込みを通じて意味認識特徴ガイダンスを組み込む。
動的オブジェクトの意味バイアスに対処するため、無限深度アーチファクトを低減する2段階の学習プロセス。
KITTIにおいてピクセル・クラス・動的オブジェクト全体で、最先端の自己教師あり単眼深度より改善を示す。

提案手法

固定の事前学習済みの意味セグメンテーションネットワークを用いて深度特徴をガイドする。
意味特徴上のガイダンス特徴がガウスカーネルを介して畳み込みウェイトを調整するピクセル適応畳み込みを適用する。
意味特徴をマルチレベルマップで処理し、ガイダンス方程式（Eq. 4 および 5）を介して統合する。
フォトメトリックおよびエッジ認識深度損失を用いた自己教師付きSfM設定で深度/ポーズネットワークを訓練する。
初期深度モデルに基づくトレーニングデータの再サンプリングにより、動的オブジェクトの無限深度予測のバイアスを除去する2段階の学習パイプラインを実装する。

実験結果

リサーチクエスチョン

RQ1ターゲットデータでの意味監視なしに、固定意味ガイダンスが自己教師あり単眼深度表現を改善できるか？
RQ2意味ガイダンス付きのピクセル適応畳み込みは、意味クラス全体でより正確で境界がシャープな深度マップを生み出すか？
RQ3自己教師あり深度推定で動的オブジェクトの無限深度バイアスを2段階の学習方式で緩和できるか？
RQ4提案手法は複数の深度ネットワークアーキテクチャとスケールに対応可能か？
RQ5セマンティックガイダンスと比較して、クラスレベルまたはピクセルレベルの深度性能がどのように改善されるか？

主な発見

KITTIにおける標準指標で最先端の自己教師あり単眼深度手法を上回る。
意味論的にガイドされた深度特徴は、遠距離・微細構造の境界をよりシャープに示す。
2段階の学習で動的オブジェクトの無限深度アーチファクトを低減し、クラス平均Abs-Relを改善（車両・バイクで特に顕著）。
異なるエンコーダバックボーン（ResNet-18、ResNet-50、PackNet）全体で深度を一貫して改善。
アブレーションにより、意味ガイダンスと2段階学習の両方が性能向上に寄与することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。