QUICK REVIEW

[論文レビュー] NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

Weihao Yuan, Xiaodong Gu|arXiv (Cornell University)|Mar 3, 2022

Advanced Vision and Imaging被引用数 42

ひとこと要約

この論文は、 vision transformer encoder と統合したニューラルウィンドウ付き全結合CRFデコーダを導入し、 monocular depth estimation を改善。画像ウィンドウ内の局所的に全結合CRFをモデリングし、グローバル情報を集約することでKITTI、NYUv2、MatterPort3Dで最先端の結果を達成します。

ABSTRACT

Estimating the accurate depth from a single image is challenging since it is inherently ambiguous and ill-posed. While recent works design increasingly complicated and powerful networks to directly regress the depth map, we take the path of CRFs optimization. Due to the expensive computation, CRFs are usually performed between neighborhoods rather than the whole graph. To leverage the potential of fully-connected CRFs, we split the input into windows and perform the FC-CRFs optimization within each window, which reduces the computation complexity and makes FC-CRFs feasible. To better capture the relationships between nodes in the graph, we exploit the multi-head attention mechanism to compute a multi-head potential function, which is fed to the networks to output an optimized depth map. Then we build a bottom-up-top-down structure, where this neural window FC-CRFs module serves as the decoder, and a vision transformer serves as the encoder. The experiments demonstrate that our method significantly improves the performance across all metrics on both the KITTI and NYUv2 datasets, compared to previous methods. Furthermore, the proposed method can be directly applied to panorama images and outperforms all previous panorama methods on the MatterPort3D dataset. Project page: https://weihaosky.github.io/newcrfs.

研究の動機と目的

単眼深度推定の難解性を、現実的な計算リソースの範囲内で全結合CRFを活用して克服する。
長距離関係をマルチヘッドアテンションで捉えるニューラル・ウィンドウFC-CRFsモジュールを提案する。
ニューラルウィンドウFC-CRFsを、 vision transformerエンコーダを備えたボトムアップ-トップダウン型アーキテクチャのデコーダとして統合する。
KITTI、NYUv2、MatterPort3Dのデータセット（パノラマを含む）において深度精度の改善を示す。
ウィンドウシフトやグローバル情報集約などの設計選択を正当化するアブレーションを示す。

提案手法

入力画像を非重複ウィンドウに分割し、各ウィンドウ内で全結合CRFsの最適化を実行して計算量を削減する。
CRFのペアワイズポテンシャルを計算するためにマルチヘッドアテンションを用い、ニューラルエネルギー関数を実現する。
画像特徴から学習されたネットワークでユニタリポテンシャルを計算し、SoftMax(QK^T + P)と深度推定を相互作用させてペアワイズポテンシャルをモデル化する。
Swin Transformerに類似した隣接ウィンドウを接続するウィンドウシフト機構を組み込み、トップレベルでグローバル情報を注入するグローバルプーリング経路（PPM）を使用する。
Swin-Transformerエンコーダを備えたボトムアップ-トップダウンネットワークのデコーダとしてニューラルウィンドウFC-CRFsを組み込み、最終解像度までスケールアップするメカニズムを適用する。
深度回帰にはスケール不変対数損失（SILog）で学習する。

実験結果

リサーチクエスチョン

RQ1局所ウィンドウ内で処理することで、全結合CRFsを単眼深度推定に対して計算的に実現可能にできるか？
RQ2ニューラルでアテンションベースのCRFポテンシャルは、従来のデコーダより深度推定を改善するか？
RQ3ウィンドウシフトとグローバル情報の集約を組み込むと、パノラマを含む屋外・室内データセットで深度品質が向上するか？
RQ4提案アーキテクチャは追加データなしでKITTI、NYUv2、MatterPort3Dの最先端性能を達成できるか？

主な発見

指標	KITTI Eigen Split (Ours) Abs Rel	KITTI Eigen Split (Ours) Sq Rel	KITTI Eigen Split (Ours) RMSE	KITTI Eigen Split (Ours) RMSE log	KITTI Eigen Split (Ours) δ<1.25	KITTI Eigen Split (Ours) δ<1.25^2	KITTI Eigen Split (Ours) δ<1.25^3
Ours	0.052	0.155	2.129	0.079	0.974	0.997	0.999

KITTI、NYUv2、MatterPort3Dにおいて、主要指標（Abs Rel、RMSE、delta accuracy など）で顕著な改善を達成。
KITTI Eigen分割で、本手法はベースラインに対してAbs Relを10.3%、RMSEを9.8%相対的に低減。
KITTI公式分割で、本手法は深度予測オンラインベンチマーク（SILog）で1位にランクイン。
NYUv2では、追加データなしでAbs RelとRMSEを低減し、室内データで高い性能を達成。
MatterPort3Dでは、パノラマ深度推定でトップパフォーマンスを達成し、追加データ（Ours*）で事前学習の恩恟を受ける。
アブレーション解析により、ニューラルウィンドウFC-CRFsがUNetベースラインを上回り、ウィンドウシフト、PPMヘッド、およびマルチヘッドエネルギーからさらなる改善を得られることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。