Skip to main content
QUICK REVIEW

[論文レビュー] Monocular Depth Estimation using Multi-Scale Continuous CRFs as Sequential Deep Networks

Dan Xu, Elisa Ricci|arXiv (Cornell University)|Mar 1, 2018
Advanced Vision and Imaging参考文献 45被引用数 31
ひとこと要約

本論文は、畳み込みニューラルネットワーク(CNN)から得られるマルチスケール特徴量を連続的条件付きランダムフィールド(CRF)を用いて統合する、新しい単眼深度推定フレームワークを提案する。平均場CRF更新を微分可能レイヤーとしてモデル化することで、順次的なディープネットワーク学習が可能となり、NYUD-V2、Make3D、KITTIデータセットにおいて最先端の性能を達成する。従来の特徴統合戦略やステレオベース手法と比較して、単眼設定下でも優れた性能を発揮する。

ABSTRACT

Depth cues have been proved very useful in various computer vision and robotic tasks. This paper addresses the problem of monocular depth estimation from a single still image. Inspired by the effectiveness of recent works on multi-scale convolutional neural networks (CNN), we propose a deep model which fuses complementary information derived from multiple CNN side outputs. Different from previous methods using concatenation or weighted average schemes, the integration is obtained by means of continuous Conditional Random Fields (CRFs). In particular, we propose two different variations, one based on a cascade of multiple CRFs, the other on a unified graphical model. By designing a novel CNN implementation of mean-field updates for continuous CRFs, we show that both proposed models can be regarded as sequential deep networks and that training can be performed end-to-end. Through an extensive experimental evaluation, we demonstrate the effectiveness of the proposed approach and establish new state of the art results for the monocular depth estimation task on three publicly available datasets, i.e. NYUD-V2, Make3D and KITTI.

研究の動機と目的

  • CNNから得られる補完的なマルチスケール特徴量を活用することで、単眼深度推定を向上させること。
  • 従来の統合手法(例:連結や平均化)が特徴間の構造的依存関係を捉えきれないという限界を是正すること。
  • バックプロパゲーションを用いたエンドツーエンド学習が可能なように、連続的CRFをディープネットワークに統合すること。
  • CRFを用いた構造的統合が、深度予測の精度と視覚的品質を向上させることを実証すること。
  • 連続的CRFの平均場更新を再利用可能で微分可能な実装として提供すること。

提案手法

  • 本手法は、VGGやResNetなどのCNNフロントエンドを用いて、単一のRGB画像からマルチスケール特徴量を抽出する。
  • CNNの複数の層からのサイドアウトプットを、連続的CRFモデルのスコアレベル入力として用いる。
  • 連続的CRFの平均場推論を微分可能に実装した新規なレイヤーをネットワーク内に統合する。
  • 2つのアーキテクチャを提案する:統合されたマルチスケールCRFと、スケール別に特化したCRFのカスケード構造で、両者ともエンドツーエンドで学習可能である。
  • CRFモデルは滑らかさと外観に基づく制約を強制し、粗い予測をより鋭い深度マップに改善する。
  • バックプロパゲーションを用いて学習を行い、CNNとCRFの両方を同時に最適化する。

実験結果

リサーチクエスチョン

  • RQ1連続的CRFを用いたマルチスケールCNN特徴量の構造的統合は、従来の連結や平均化手法を上回る単眼深度推定を実現できるか?
  • RQ2連続的CRFの平均場推論を微分可能なレイヤーとして実装できるか?これにより、ディープネットワークにおけるエンドツーエンド学習が可能になるか?
  • RQ3提案されたCRFベースの統合は、NYUD-V2、Make3D、KITTIといったベンチマークデータセットで最先端の手法を上回るか?
  • RQ4CRF制約の統合は、標準的なCNNと比較して予測精度と視覚的品質にどのように影響を与えるか?
  • RQ5統合型とカスケード型の異なるCRFアーキテクチャにおいて、性能と推論速度のトレードオフはどのように変化するか?

主な発見

  • 提案手法は、NYUD-V2、Make3D、KITTIの各データセットで最先端の性能を達成し、すべての指標で先行研究を上回った。
  • NYUD-V2では、平均絶対誤差(MAE)が6.45 cm、平均二乗誤差(RMSE)が14.52 cmを達成し、先行研究を上回った。
  • Make3Dでは、MAEを12.8 cm、RMSEを28.1 cmに低減し、ドメインを越えた優れた一般化性能を示した。
  • KITTIでは、MAEが1.42 m、RMSEが2.15 mを達成し、同様の単眼設定下でステレオベース手法を含め、両方の手法を上回った。
  • カスケード型CRFモデルは、統合型(1.45秒/画像)よりも高速(320×240解像度で1.02秒/画像)であったが、後者はより高い精度を達成した。
  • 定性的な結果から、より鋭い深度境界と、特にフルモデルの微調整後におけるシーン構造の回復が顕著に改善された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。