Skip to main content
QUICK REVIEW

[論文レビュー] Robust Semi-Supervised Monocular Depth Estimation with Reprojected Distances

Vitor Guizilini, Jie Li|arXiv (Cornell University)|Oct 3, 2019
Advanced Vision and Imaging被引用数 24
ひとこと要約

本論文は、自己教師付きの光度損失と、新しい再投影距離損失を組み合わせることで、自己教師付き学習フレームワークにスパースなLiDAR深度ラベルを統合する、画期的な半教師付き単眼深度推定手法を提案する。わずか4本のLiDARビーム(1枚の画像あたり100未満の有効深度値)を用いることで最先端の性能を達成し、非常にスパースな監視情報がスケールを安定化させつつ、動画シーケンスからの局所的な幾何的正確性を維持できることを示している。

ABSTRACT

Dense depth estimation from a single image is a key problem in computer vision, with exciting applications in a multitude of robotic tasks. Initially viewed as a direct regression problem, requiring annotated labels as supervision at training time, in the past few years a substantial amount of work has been done in self-supervised depth training based on strong geometric cues, both from stereo cameras and more recently from monocular video sequences. In this paper we investigate how these two approaches (supervised & self-supervised) can be effectively combined, so that a depth model can learn to encode true scale from sparse supervision while achieving high fidelity local accuracy by leveraging geometric cues. To this end, we propose a novel supervised loss term that complements the widely used photometric loss, and show how it can be used to train robust semi-supervised monocular depth estimation models. Furthermore, we evaluate how much supervision is actually necessary to train accurate scale-aware monocular depth models, showing that with our proposed framework, very sparse LiDAR information, with as few as 4 beams (less than 100 valid depth values per image), is enough to achieve results competitive with the current state-of-the-art.

研究の動機と目的

  • 動画からの幾何的整合性とスケール監視を組み合わせることで、教師ありと自己教師ありの深度推定のギャップを埋める。
  • 高ビーム数センサーに依存することなく、極めてスパースなLiDARデータを用いて正確な深度推定を可能にする。
  • 再投影距離に基づく新しい微分可能な損失を導入することで、自己教師あり単眼深度モデルの忠実性とスケール正確性を向上させる。
  • 実世界のシナリオにおいて、競争的な深度推定性能を達成するために必要な最小限の監視量を評価する。

提案手法

  • 再投影された深度予測と画像空間内の真値LiDAR点とのL2距離を最小化する、画期的な教師あり損失項を導入する。
  • この再投影距離損失を、半教師あり学習のための共同最適化フレームワーク内で、標準的な光度損失と組み合わせる。
  • 画像空間における再投影を用いることで、光度損失と同じ幾何的制約下で損失が作用し、エンドツーエンドの微分可能性を確保する。
  • ビームのスパarsity戦略を適用して低解像度LiDARをシミュレートし、ビーム配置への感受性を評価する。
  • 自己教師あり光度損失を用いてラベルなし動画シーケンス上でモノクロナル深度ネットワークをエンドツーエンドで訓練し、新損失を介してスパースな深度ラベルを統合する。
  • データ拡張と確率的訓練を用いて、異なるビーム構成およびスパarsityレベルにおけるモデルのロバストネスを評価する。

実験結果

リサーチクエスチョン

  • RQ1数本のLiDARビームでのみ学習した自己教師あり単眼深度モデルが、高い精度を達成できるか?
  • RQ2スパースな深度ラベルの空間的分布が、モデル性能と収束性に与える影響は何か?
  • RQ3提案された再投影距離損失は、標準的な自己教師あり学習に比べ、スケール正確性と局所的な幾何的忠実性を向上させるか?
  • RQ4競争的な深度推定性能を達成するために必要なLiDARビームの最小数は何か?

主な発見

  • わずか4本のLiDARビーム(1枚の画像あたり100未満の有効深度値)を用いても、KITTIデータセットで競争的な性能を達成し、絶対相対誤差(abs_rel)は0.101 ± 0.007を記録した。
  • 異なるビーム分布に対してもモデルは頑健な性能を維持し、極度のスパarsity下でも深刻な失敗を示さないが、1本または2本のビームでは収束が不安定になる傾向を示した。
  • 再投影距離損失は、スケール正確性と局所的詳細忠実性を顕著に向上させ、スパースラベルを組み合わせた場合、標準的な自己教師ありベースラインを上回った。
  • ビーム数が減少するに従い、性能は徐々に低下する:10本のビームではabs_relが0.249 ± 0.031に上昇し、1本のビームでは収束問題が生じ、信頼できる監視の実用的下限を示唆した。
  • 10本のビームではδ<1.25の精度が0.886 ± 0.013、64本のフルビーム監視では0.932 ± 0.002を達成し、スパarsityレベルにわたる強力な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。