QUICK REVIEW

[論文レビュー] Attention-based Context Aggregation Network for Monocular Depth Estimation

Yuru Chen, Haitao Zhao|arXiv (Cornell University)|Jan 29, 2019

Advanced Vision and Imaging参考文献 50被引用数 24

ひとこと要約

本稿では、固定された拡張率に基づくアトリウス空間ピラミッドプーリング（ASPP）の限界を克服するため、自己注意機構を用いて長距離のピクセルレベルおよび画像レベルの文脈を適応的にモデル化する注目ベースの文脈集約ネットワーク（ACAN）を提案する。この手法により、固定された拡張率に起因するグリッドアーティファクトが低減される。さらに、離散化誤差を最小化するためのソフト順序分類を導入し、NYU Depth V2およびKITTIベンチマークで最先端の性能を達成した。ResNet-101を用いた場合、KITTIでのRMSEは3.599であった。

ABSTRACT

Depth estimation is a traditional computer vision task, which plays a crucial role in understanding 3D scene geometry. Recently, deep-convolutional-neural-networks based methods have achieved promising results in the monocular depth estimation field. Specifically, the framework that combines the multi-scale features extracted by the dilated convolution based block (atrous spatial pyramid pooling, ASPP) has gained the significant improvement in the dense labeling task. However, the discretized and predefined dilation rates cannot capture the continuous context information that differs in diverse scenes and easily introduce the grid artifacts in depth estimation. In this paper, we propose an attention-based context aggregation network (ACAN) to tackle these difficulties. Based on the self-attention model, ACAN adaptively learns the task-specific similarities between pixels to model the context information. First, we recast the monocular depth estimation as a dense labeling multi-class classification problem. Then we propose a soft ordinal inference to transform the predicted probabilities to continuous depth values, which can reduce the discretization error (about 1% decrease in RMSE). Second, the proposed ACAN aggregates both the image-level and pixel-level context information for depth estimation, where the former expresses the statistical characteristic of the whole image and the latter extracts the long-range spatial dependencies for each pixel. Third, for further reducing the inconsistency between the RGB image and depth map, we construct an attention loss to minimize their information entropy. We evaluate on public monocular depth-estimation benchmark datasets (including NYU Depth V2, KITTI). The experiments demonstrate the superiority of our proposed ACAN and achieve the competitive results with the state of the arts.

研究の動機と目的

固定された拡張率を用いるASPPの限界、特にグリッドアーティファクトを引き起こし、連続的なシーンの文脈を捉えられない点を是正する。
自己注意機構を用いてピクセルレベルの長距離依存関係と画像レベルの統計的文脈を同時にモデル化することで、深度推定を向上させる。
深度予測の離散化誤差を低減するため、問題をソフト順序分類問題に再定式化する。
RGB画像と予測された深度マップの間の整合性を向上させるために、注目ベースのエントロピー最小化損失を導入する。

提案手法

モノクローラル深度推定を密度的な多クラス分類問題に再定式化することで、順序確率学習を可能にする。
予測確率を連続的な深度値に変換するためのソフト順序分類を導入し、RMSEで約1%の離散化誤差低減を達成した。
デコーダーに自己注意モジュールを採用し、タスク固有のピクセル単位の類似性を学習し、長距離の空間的依存関係を捉える。
ピクセルレベルの注目とは別に、グローバルな統計的文脈を抽出する画像レベルのプーリングモジュールを組み込む。
空間分解能を保持し、過剰なダウンサンプリングを避けるために、拡張畳み込みを用いた残差エンコーダ（ResNet）を採用する。
RGB特徴と予測深度マップ間の情報エントロピーを最小化する注目ベースの損失関数を提案し、特徴の整合性を向上させる。

実験結果

リサーチクエスチョン

RQ1自己注意機構は、固定された拡張率を用いるASPPよりも優れた方法である固定拡張率の方法に比べ、モノクローラル深度推定において連続的でシーン依存の文脈を効果的にモデル化できるか？
RQ2ソフト順序分類は、標準的な回帰やハード分類に比べて、深度予測における離散化誤差をどのように低減するか？
RQ3ピクセルレベルと画像レベルの文脈を組み合わせることで、深度推定の精度はどの程度向上するか？
RQ4RGB特徴と深度特徴の間のエントロピーを最小化する注目ベースの損失は、特徴の一貫性と予測品質をどの程度向上させるか？

主な発見

ACANはResNet-101を用いた場合、KITTIデータセットでRMSE 3.599を達成し、比較された最先端手法をすべて上回った。
ソフト順序分類により、離散化誤差がRMSEで約1%低減され、深度の連続性が向上した。
定性的な結果から、ACANはグリッドアーティファクトに苦しむASPPなどの手法と比べ、より明確な境界と詳細な深度マップを生成した。
注目ベースの損失により、RGBと深度特徴の整合性が顕著に向上し、予測のノイズと不整合が低減された。
NYU Depth V2では、複雑なシーンにおいても一般化性能と詳細の保持が向上し、優れた性能を示した。
アブレーションスタディの結果、ピクセルレベルおよび画像レベルの文脈集約の両方が、最終的な性能向上に顕著な貢献をしていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。