QUICK REVIEW

[論文レビュー] Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation

Dan Xu, Elisa Ricci|arXiv (Cornell University)|Apr 7, 2017

Advanced Vision and Imaging参考文献 31被引用数 42

ひとこと要約

本稿では、複数のCNN層からの特徴を統合するための新規なマルチスケール連続CRFフレームワークを提案する。このフレームワークは、CNNベースの平均場推論の新規実装により、エンド・トゥ・エンドで学習可能な逐次的深層ネットワークとして実装される。本手法は、NYU Depth V2およびMake3Dデータセットにおいて、従来の手法よりもはるかに少ない学習データで最先端の性能を達成する。

ABSTRACT

This paper addresses the problem of depth estimation from a single still image. Inspired by recent works on multi- scale convolutional neural networks (CNN), we propose a deep model which fuses complementary information derived from multiple CNN side outputs. Different from previous methods, the integration is obtained by means of continuous Conditional Random Fields (CRFs). In particular, we propose two different variations, one based on a cascade of multiple CRFs, the other on a unified graphical model. By designing a novel CNN implementation of mean-field updates for continuous CRFs, we show that both proposed models can be regarded as sequential deep networks and that training can be performed end-to-end. Through extensive experimental evaluation we demonstrate the effective- ness of the proposed approach and establish new state of the art results on publicly available datasets.

研究の動機と目的

単一のRGB画像から深層学習を用いて正確な単眼深度推定を実現すること。
従来のマルチスケール特徴統合手法（例：連結や平均化）の限界を乗り越えるために、構造的確率的モデリングを活用すること。
連続条件付きランダムフィールド（CRFs）を統合して、マルチスケールCNN特徴を最適に統合し、深度予測を向上させること。
平均場CRF更新をCNN内の微分可能レイヤーとして定式化することで、モデル全体をエンド・トゥ・エンドで学習可能にすること。
さまざまな事前学習済みCNNバックボーンを用いて、多様なデータセットで一般化性と性能向上を実証すること。

提案手法

2つのバリエーションを提案：複数のCNNサイド出力からの特徴を統合する統合的マルチスケールCRFと、スケール別CRFの段階的スタック。
連続CRFの平均場推論を実装する新規なCNNベースのアプローチを設計し、微分可能でエンド・トゥ・エンド学習が可能となる。
CRF推論プロセスを逐次的深層ネットワークとして扱い、アーキテクチャ全体にバックプロパゲーションが可能となる。
空間的依存関係をモデル化する連続CRFエネルギー関数を採用し、滑らかさ項とデータ適合項を含む。
平均場更新の微分可能な近似を採用し、バックプロパゲーション中にCRFレイヤーを通過する勾配を可能にする。
さまざまなCNNアーキテクチャ（例：ResNet-50）に本フレームワークを適用し、小規模データセットでファインチューニングを実施する。

実験結果

リサーチクエスチョン

RQ1連続CRFは、CNNサイド出力からのマルチスケール特徴を効果的に統合し、単眼深度推定を向上させることができるか？
RQ2連続CRFにおける平均場推論を、CNN内での微分可能レイヤーとして実装できるか？
RQ3提案されたCRFベースの統合は、特徴連結やマルチロス学習といった従来のマルチスケール統合戦略を上回るか？
RQ4従来の最先端手法と比較して、はるかに少ない学習データでも最先端の性能を達成できるか？
RQ5提案されたフレームワークは、さまざまなCNNバックボーンやベンチマークデータセットに一般化できるか？

主な発見

提案されたマルチスケールCRFフレームワークは、連結やマルチロス学習に依存する従来のマルチスケール統合手法を上回る。
NYU Depth V2データセットでは、10,000枚の事前学習画像を用いて相対誤差（rel）が0.121、log10誤差が0.052を達成し、より少ないデータで従来の最先端手法を上回る。
Make3Dデータセットでは、10,000枚の事前学習画像を用いてlog10誤差が0.065、RMS誤差が4.38を達成し、Huber損失を用いたLainaら[18]を上回る。
カスケード型とマルチスケールCRFの両方のバリエーションが、同様にCRFを深層ネットワークに組み込んだLiuら[20]を上回り、推論速度も速い（1枚あたり約1秒）。
NYU Depth V2およびMake3Dの両方で最先端の性能を達成し、すべての設定でrel、log10、RMS、delta指標において改善が見られる。
提案されたCNNベースの平均場実装は汎用的であり、連続変数を含む他のピクセル単位の回帰タスクへも適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。