QUICK REVIEW

[論文レビュー] Learning Depth-Guided Convolutions for Monocular 3D Object Detection

Mingyu Ding, Yuqi Huo|arXiv (Cornell University)|Dec 10, 2019

Advanced Neural Network Applications被引用数 30

ひとこと要約

本稿では、単眼深度マップから、サンプル固有で、位置に依存し、深度に従い、可変受容 field を持つ畳み込みフィルタを学習する、新しい深さガイド付きダイナミック・ディレイテッド・ディlatorス・ローカル畳み込みネットワーク、D⁴LCN を提案する。標準的な2次元畳み込みを深さガイド付きで、ダイナミックで、拡張されたカーネルに置き換えることで、擬似LiDARに依存せずに3次元物体検出の精度を向上させ、KITTIでSOTAに対して9.1%の相対的向上を達成し、提出時時点で単眼3次元検出ベンチマークで1位を獲得した。

ABSTRACT

3D object detection from a single image without LiDAR is a challenging task due to the lack of accurate depth information. Conventional 2D convolutions are unsuitable for this task because they fail to capture local object and its scale information, which are vital for 3D object detection. To better represent 3D structure, prior arts typically transform depth maps estimated from 2D images into a pseudo-LiDAR representation, and then apply existing 3D point-cloud based object detectors. However, their results depend heavily on the accuracy of the estimated depth maps, resulting in suboptimal performance. In this work, instead of using pseudo-LiDAR representation, we improve the fundamental 2D fully convolutions by proposing a new local convolutional network (LCN), termed Depth-guided Dynamic-Depthwise-Dilated LCN (D$^4$LCN), where the filters and their receptive fields can be automatically learned from image-based depth maps, making different pixels of different images have different filters. D$^4$LCN overcomes the limitation of conventional 2D convolutions and narrows the gap between image representation and 3D point cloud representation. Extensive experiments show that D$^4$LCN outperforms existing works by large margins. For example, the relative improvement of D$^4$LCN against the state-of-the-art on KITTI is 9.1\% in the moderate setting. The code is available at https://github.com/dingmyu/D4LCN.

研究の動機と目的

単眼3次元物体検出において、スケールや深さに敏感な特徴を捉えるために、従来の2次元畳み込みの限界を解消すること。
擬似LiDARベースの手法が不正確な深度マップに依存する問題を、深さガイドを畳み込みカーネル学習プロセスに直接統合することで克服すること。
擬似LiDAR変換に依存せずに、2次元画像特徴と3次元ポイントクラウド表現の間の表現ギャップを埋めること。
深度マップを用いて、局所的な幾何学的構造やスケール変動に適応する、より優れた特徴学習を可能にするエンドツーエンド学習を可能にすること。

提案手法

各ピクセルとチャネルごとに深さマップのガイドに従って動的に生成される畳み込みフィルタを備えた、ローカル畳み込みネットワーク、D⁴LCN を提案する。
エグジンプレ固有で、局所的で、深さに従い、拡張された畳み込みカーネルを、可変受容 field を持つように学習する深さガイドフィルタリングモジュールを導入する。
各フィルタが固有の拡張率を持つ、ダイナミックで、深さに従い、拡張された畳み込み機構を採用し、特徴マップの各位置で可変受容 field を実現する。
標準的な畳み込みと比較してパラメータを削減しつつ、マルチスケール特徴を効率的に捉えるために、シフトプーリング操作を採用する。
LiDAR や追加アノテーションに依存せずに、単眼RGB画像と予測された深さマップのみを用いて、エンドツーエンドでモデルを学習する。
アロケントリックポーズ回帰を活用して、位置に依存しない一貫したオブジェクトビュー表現を維持する。

実験結果

リサーチクエスチョン

RQ1擬似LiDARに依存せずに、深さガイド付きで、ダイナミックな畳み込みカーネルが、単眼設定における3次元物体検出性能を向上させられるか？
RQ2サンプル固有で、位置に依存し、深さに従う畳み込みを、可変受容 field を持つように学習することで、より優れたスケールおよび深さに敏感な特徴表現が得られるか？
RQ3単眼画像と深さマップのみを用いた完全なエンドツーエンド学習可能なネットワークが、KITTIで既存のSOTA手法を上回れるか？
RQ4固定または共有された拡張率と比較して、可変拡張メカニズムはマルチスケール3次元物体検出を処理する上でどのように優れているか？

主な発見

D⁴LCN は、KITTI の中程度セットにおける車両検出で26.97%の平均精度（AP）を達成し、前回のSOTAに対して9.1%の相対的向上を示した。
提出時時点で、KITTI の単眼3次元物体検出ベンチマークで1位を獲得し、すべての先行手法を上回った。
アブレーションスタディの結果、ダイナミックで、深さに従い、拡張された畳み込みの組み合わせが最大のパフォーマンス向上をもたらし、特に可変拡張メカニズムが顕著であった。
効率的な深さに従う畳み込みとシフトプーリングの設計により、標準的な畳み込みと比較してパラメータ数を減らしつつ、より高い性能を達成した。
ブロックごとの拡張率の分布を分析した結果、ネットワークが初期層で大きな受容 field を使用し、後続の層で複数の拡張率をバランスさせることでマルチスケール検出を実現していることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。