QUICK REVIEW

[論文レビュー] Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

Dan Xu, Wei Wang|arXiv (Cornell University)|Mar 29, 2018

Advanced Vision and Imaging参考文献 33被引用数 40

ひとこと要約

本論文は、単眼深度推定のためにマルチスケールCNN特徴をCRFで統合する構造化アテンション誘導の条件付きニューラルフィールドを提案し、エンドツーエンド学習を可能にするとともに、NYU Depth V2およびKITTIで競争力のあるまたは最先端の結果を達成します。

ABSTRACT

Recent works have shown the benefit of integrating Conditional Random Fields (CRFs) models into deep architectures for improving pixel-level prediction tasks. Following this line of research, in this paper we introduce a novel approach for monocular depth estimation. Similarly to previous works, our method employs a continuous CRF to fuse multi-scale information derived from different layers of a front-end Convolutional Neural Network (CNN). Differently from past works, our approach benefits from a structured attention model which automatically regulates the amount of information transferred between corresponding features at different scales. Importantly, the proposed attention model is seamlessly integrated into the CRF, allowing end-to-end training of the entire architecture. Our extensive experimental evaluation demonstrates the effectiveness of the proposed method which is competitive with previous methods on the KITTI benchmark and outperforms the state of the art on the NYU Depth V2 dataset.

研究の動機と目的

CRFを介して統合されたマルチスケールCNN特徴を用いて、単一画像から深度推定を動機づける。
CRF内でスケール間の情報フローを調整する構造化アテンション機構を導入する。
CRFをフロントエンドCNNとデコーダと統合して、エンドツーエンドの学習可能性を可能にする。
NYU Depth V2およびKITTIにおいて、CRFベースおよびマルチスケール融合のベースラインより精度の向上を示す。

提案手法

フロントエンドCNNからのSスケールの特徴マップ X = {X_s} を取り、注意 A = {A_s} を用いて潜在マップ Y = {Y_s} を学習するマルチスケールCRFを提案する。
Y_sをX_sに結びつける一項項、中間スケールと最終スケール間のペアワイズ項をアテンションで調整、近傍ピクセル間の滑らかさを促す構造化アテンション項からなるCRFエネルギーを定義する。
YとAの平均場更新を導出し、エンドツーエンド学習のためにニューラルネットワーク層として実装する。
エンコーダとしてResNet-50を用い、res3c、res4f、res5cの特徴マップを融合させ、CRF融合のために1/4解像度へアップサンプルし、深度予測のために元の解像度へ再アップサンプルする。
深度予測の二乗誤差損失と SGD 最適化を用いて全体をエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1CRFに組み込まれた構造化アテンション機構は、単眼深度推定のためのマルチスケール融合を改善できるか？
RQ2CRF内で特徴レベルでの操作は、最終予測のみを refine するよりも良い深度マップにつながるか？
RQ3提案手法は、NYU Depth V2およびKITTIにおける最先端のCRFベースおよび非CRFベースの単眼深度推定とどう比較されるか？

主な発見

提案手法は NYU Depth V2 で従来のCRFベース手法を上回り、KITTI でも上位に入る性能を示す。
CRF内の構造化アテンションは、非アテンションCRFおよび単純な特徴融合より深度予測精度を向上させる。
CNNと構造化CRFのエンドツーエンド訓練は、元の訓練データのみを用いて競争力のある結果をもたらす。
ベースラインと比較して精度と時間のトレードオフが良好で、従来のCRFベースモデルのいくつかより推論が速い。
アブレーションにより、構造化アテンションCRFを介してマルチスケール特徴を結合することが最良の性能を生むことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。