QUICK REVIEW

[論文レビュー] P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior

Vaishakh Patil, Christos Sakaridis|arXiv (Cornell University)|Jan 1, 2022

Advanced Vision and Imaging被引用数 6

ひとこと要約

P3Depthは、同一の3次元平面を共有する種まきピクセルを特定するために平面係数とオフセットベクトルを予測する、区分的平面性の事前知識を活用した教師あり単眼深度推定手法を提案する。直接的深度ヘッドと平面性ガイド付きヘッドの予測を学習された信頼度マップで融合することで、NYU Depth-v2およびKITTIで最先端の性能を達成し、明確な深度不連続性と一貫性のある3次元再構成を実現する。

ABSTRACT

Monocular depth estimation is vital for scene understanding and downstream tasks. We focus on the supervised setup, in which ground-truth depth is available only at training time. Based on knowledge about the high regularity of real 3D scenes, we propose a method that learns to selectively leverage information from coplanar pixels to improve the predicted depth. In particular, we introduce a piecewise planarity prior which states that for each pixel, there is a seed pixel which shares the same planar 3D surface with the former. Motivated by this prior, we design a network with two heads. The first head outputs pixel-level plane coefficients, while the second one outputs a dense offset vector field that identifies the positions of seed pixels. The plane coefficients of seed pixels are then used to predict depth at each position. The resulting prediction is adaptively fused with the initial prediction from the first head via a learned confidence to account for potential deviations from precise local planarity. The entire architecture is trained end-to-end thanks to the differentiability of the proposed modules and it learns to predict regular depth maps, with sharp edges at occlusion boundaries. An extensive evaluation of our method shows that we set the new state of the art in supervised monocular depth estimation, surpassing prior methods on NYU Depth-v2 and on the Garg split of KITTI. Our method delivers depth maps that yield plausible 3D reconstructions of the input scenes. Code is available at: https://github.com/SysCV/P3Depth

研究の動機と目的

現実世界の3次元シーンが示す高い規則性、特に区分的平面構造を活用することで、単眼深度推定を向上させること。
局所的な平面性を強制する幾何的事前知識を組み込むことで、単眼深度推定におけるスケールの曖昧さを解消すること。
ピクセルを平面領域ごとにグループ化する能力を暗黙的に学習できる微分可能でエンドツーエンドで訓練可能なアーキテクチャを開発すること。
標準ベンチマークで最先端の性能を達成するとともに、ファインチューニングなしのゼロショット転送設定においても良好に一般化できること。
奥行きの不連続性を保持することで、高品質な3次元再構成に適した深度マップを生成すること。

提案手法

ネットワークは二重ヘッドアーキテクチャを採用する：1つのヘッドは各ピクセルに対して局所的な3次元平面を表す平面係数（a, b, c）を予測する。
2番目のヘッドは、密なオフセットベクトル場（dx, dy）と信頼度マップを予測し、同じ平面に属する種まきピクセルを特定する。
種まきピクセルの平面係数を、予測されたオフセットを用いて再サンプリングし、2番目の深度予測を生成する。
信頼度マップを学習可能な融合重みとして用いて、2つの深度予測を適応的に統合し、局所的な平面性から逸脱する領域に対応する。
予測された深度面と真値の間の1次的整合性を強制するための平均平面損失を導入する。
モデル全体は最終的な統合深度予測でのみ教師あり学習を行うため、オフセットと信頼度の暗黙的な教師あり学習が可能になる。

実験結果

リサーチクエスチョン

RQ1同一平面に属するピクセル間での情報共有を可能にする区分的平面性の事前知識が、単眼深度推定の性能向上に寄与するか？
RQ2明示的な教師あり学習なしに、微分可能でエンドツーエンドで訓練可能なネットワークが、同じ平面に属する種まきピクセルをどのように特定できるか？
RQ3直接的深度予測と平面性ガイド付き予測の間での適応的融合が、深度の正確性とエッジの鋭さに与える影響は何か？
RQ4提案された平均平面損失は、一般化性能と表面の一貫性をどのように向上させるか？
RQ5ファインチューニングなしで、ゼロショットドメインに効果的に一般化できるか？

主な発見

P3DepthはNYU Depth-v2で新たな最先端性能を達成し、すべての標準指標で先行手法を上回った（A.Rel ↓ 0.104、RMSE ↓ 0.356、δ1 ↑ 0.898）。
KITTI Gargスプリットにおいても、P3Depthは最先端の結果を達成し、A.Rel ↓ 0.104、RMSE ↓ 0.356、δ1 ↑ 0.898を達成した。
ゼロショット転送において、P3DepthはScanNet、SUN-RGBD、DIODE Indoor、ETH-3Dで先行の最先端手法を上回り、特にRMSEとδ1で顕著な優位性を示した。
アブレーションスタディの結果、オフセットに基づく精錬を伴う平面係数の使用は、直接的深度予測に比べて顕著な向上をもたらした（RMSE：0.458 → 0.356）。
平均平面損失を導入することで、それがないアブレーションと比較してRMSEが0.016低下した。
定性的な結果では、変動する照明条件や鏡面反射面でも、奥行きの不連続性が明確に保たれ、一貫性のある3次元再構成が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。