[論文レビュー] PENet: Towards Precise and Efficient Image Guided Depth Completion
PENetは、疎な深度マップと高解像度画像から、色優位と深度優位の特徴を別々に抽出し、学習可能な信頼度重みを用いて両ブランチの予測を適応的に統合する二本のバックボーンを提案する。3D空間的ヒントを符号化するための幾何的畳み込み層を導入し、効率的な精錬のための拡張・高速化されたCSPN++を統合することで、KITTI深度補完ベンチマークで最先端の性能を達成し、インフェレンスが高速である。オンラインランクイングで1位を獲得した。
Image guided depth completion is the task of generating a dense depth map from a sparse depth map and a high quality image. In this task, how to fuse the color and depth modalities plays an important role in achieving good performance. This paper proposes a two-branch backbone that consists of a color-dominant branch and a depth-dominant branch to exploit and fuse two modalities thoroughly. More specifically, one branch inputs a color image and a sparse depth map to predict a dense depth map. The other branch takes as inputs the sparse depth map and the previously predicted depth map, and outputs a dense depth map as well. The depth maps predicted from two branches are complimentary to each other and therefore they are adaptively fused. In addition, we also propose a simple geometric convolutional layer to encode 3D geometric cues. The geometric encoded backbone conducts the fusion of different modalities at multiple stages, leading to good depth completion results. We further implement a dilated and accelerated CSPN++ to refine the fused depth map efficiently. The proposed full model ranks 1st in the KITTI depth completion online leaderboard at the time of submission. It also infers much faster than most of the top ranked methods. The code of this work is available at https://github.com/JUGGHM/PENet_ICRA2021.
研究の動機と目的
- 疎な深度入力と高解像度カラー画像から正確で密集した深度マップを生成する課題に対処すること。
- 色と深度のモダリティ統合を向上させるために、色優位と深度優位の特徴を別々に強調する二本のブランチネットワークを設計すること。
- 外部の教師信号や事前学習を必要とせず、畳み込み層に直接3D幾何的ヒントを符号化することで、特徴表現を向上させること。
- 軽量で高速化されたCSPN++の変種を用いて、融合済み深度予測を効率的に精錬すること。
- 精度と計算効率の両方を高め、両方の指標で既存手法を上回ること。
提案手法
- 本手法は二本のバックボーンを採用する:色優位(CD)ブランチはカラー画像と疎な深度マップを処理し、テクスチャや境界に敏感な密集深度マップを予測する。
- 深度優位(DD)ブランチは、疎な深度マップとCDブランチの予測を入力とし、構造的一致性を重視するが、エッジ付近でノイズに弱い第二の密集深度マップを生成する。
- 二つの予測深度マップは、学習可能な信頼度重みを用いて適応的に統合され、相補的な強みを組み合わせる。
- 各畳み込み層の入力に3D位置マップを連結することで、幾何的畳み込み層(GCL)を導入し、3D空間的幾何を明示的に符号化可能にする。
- 拡張・高速化された(DA)CSPN++モジュールを実装し、伝搬時間を短縮しながらも精度を維持するように融合深度マップを精錬する。
- 全モデルは、Cityscapes や合成データなどの追加データセットを必要とせず、スクラッチから訓練される。
実験結果
リサーチクエスチョン
- RQ1色優位と深度優位の特徴を別々に強調する二本のブランチネットワークは、後期統合や初期統合のベースラインと比較して、より優れた深度補完を達成できるか?
- RQ2畳み込み層に3D幾何的位置ヒントを明示的に符号化することで、特に物体境界付近での深度予測精度が向上するか?
- RQ3変更・高速化されたCSPN++のバージョンは、著しく短縮されたインフェレンス時間で効果的な精錬を可能にするか?
- RQ4提案手法は、KITTI深度補完ベンチマークで精度とインフェレンス速度の両面で最先端の性能を達成するか?
- RQ5外部の事前学習データセット(例:Cityscapes や合成データ)に依存せずに、高い性能を達成できるか?
主な発見
- PENetは、比較表に掲載された他の発表済み手法と比較して、KITTI深度補完テストセットでRMSE 730.08を達成し、顕著に優れた性能を示した。
- 幾何的畳み込み層(GCL)は、標準畳み込みと比較してバックボーンのRMSEを大幅に改善し、座標符号化(CCL)および深度専用符号化(DCL)の変種を上回った。
- 提出時刻におけるKITTIオンラインランクイングで1位を獲得し、1台の2080Ti GPUで0.032秒の実行時間で、上位10の手法のうち8つをインフェレンス速度で上回った。
- 精錬モジュールを搭載しなくても、幾何的エンコーダバックボーン(ENet)はRMSE 741.30を達成し、空間伝搬技術を用いた9つの上位手法を上回った。
- 提案されたDA-CSPN++モジュールは、伝搬時間を0.015秒まで短縮し、元のCSPN++と比較して92%、NLSPNと比較して95%の短縮を達成しながらも、高い精度を維持した。
- Cityscapes や合成データなどの大規模データセットでの事前学習を必要とせず、スクラッチからの訓練が可能であり、高い性能を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。