Skip to main content
QUICK REVIEW

[論文レビュー] High Quality Monocular Depth Estimation via Transfer Learning

Ibraheem Alhashim, Peter Wonka|arXiv (Cornell University)|Dec 31, 2018
Advanced Vision and Imaging参考文献 37被引用数 190
ひとこと要約

著者らは、事前学習済みの DenseNet-169 エンコーダと軽量デコーダを用いて高解像度の単眼深度マップを生成し、忠実度を向上させる単純なエンコーダ–デコーダ網を提案する。多項項損失とターゲットデータ拡張で訓練。

ABSTRACT

Accurate depth estimation from images is a fundamental task in many applications including scene understanding and reconstruction. Existing solutions for depth estimation often produce blurry approximations of low resolution. This paper presents a convolutional neural network for computing a high-resolution depth map given a single RGB image with the help of transfer learning. Following a standard encoder-decoder architecture, we leverage features extracted using high performing pre-trained networks when initializing our encoder along with augmentation and training strategies that lead to more accurate results. We show how, even for a very simple decoder, our method is able to achieve detailed high-resolution depth maps. Our network, with fewer parameters and training iterations, outperforms state-of-the-art on two datasets and also produces qualitatively better results that capture object boundaries more faithfully. Code and corresponding pre-trained weights are made publicly available.

研究の動機と目的

  • 画像分類エンコーダからの転移学習が単眼深度マップの品質を高められることを実証する。
  • シンプルなデコーダが、より少ないパラメータと反復回数で最先端の性能を達成し得ることを示す。
  • 深度精度を保持しつつ境界機能を維持する損失関数を提案する。
  • 学習効率と一般化を向上させるデータ拡張戦略を定義する。
  • 一般化を評価する新しい合成室内深度データセットを提供する(Unreal-1k)。

提案手法

  • エンコーダー: pre-trained DenseNet-169 (ImageNet) を深度推定用に切り詰めた構成。
  • デコーダー: バッチ正規化なしの軽量なアップサンプリングブロックとスキップ接続。
  • 損失: L = lambda * L_depth + L_grad + L_SSIM with lambda = 0.1 and L_depth as L1 in depth space; depth values are transformed via reciprocal scaling to stabilize training.
  • データ拡張: 水平反転を確率0.5で実施; カラーチャンネルの順序変更を確率0.25で実施。
  • 学習戦略: ADAM によるエンドツーエンド訓練、NYU Depth v2 で 1M イテレーション、KITTI で 300K イテレーション; 評価指標として平均二乗誤差/相対誤差を使用。
  • 評価: NYU Depth v2、KITTI、Unreal-1k データセットでの定性的・定量的評価。

実験結果

リサーチクエスチョン

  • RQ1画像分類エンコーダからの転移学習は単眼深度推定の品質を向上させるか?
  • RQ2強力なエンコーダと組み合わせた場合、シンプルなデコーダはより複雑なアーキテクチャを凌駕できるか?
  • RQ3損失設計と拡張戦略は深度精度とエッジ保持にどのように影響するか?
  • RQ4提案モデルは合成室内データセット(Unreal-1k)およびクロスドメインデータにどれだけ generalize できるか?

主な発見

  • NYU Depth v2 でほとんどの指標で最先端の性能を達成し、パラメータ数は約42.6M、訓練イテレーションは 1M と従来法より少ない。
  • 従来手法よりも境界がシャープでアーチファクトの少ない深度マップを生成。
  • Unreal-1k の合成室内データセットで定量・定性的の両面で優位性を示す。
  • KITTI データセットでは標準指標で2番目に良好、 Ground-truth の極度にスパースなデータにより性能が制限されるが、定性的な深度マップは高品質のまま。
  • アブレーション研究により、カラー・チャンネル拡張が一般化を大幅に改善し、より深いエンコーダはパラメータコストが高い割に効果が限定的であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。