Skip to main content
QUICK REVIEW

[論文レビュー] Object DGCNN: 3D Object Detection using Dynamic Graphs

Yue Wang, Justin Solomon|arXiv (Cornell University)|Oct 13, 2021
Advanced Neural Network Applications参考文献 66被引用数 50
ひとこと要約

論文は Object DGCNN を提案する。NMSなしの3D物体検出器で、動的グラフを用いて物体を集合としてモデリングし、集合間損失と蒸留を用いて自動運転ベンチマークで最先端の結果を達成する。

ABSTRACT

3D object detection often involves complicated training and testing pipelines, which require substantial domain knowledge about individual datasets. Inspired by recent non-maximum suppression-free 2D object detection models, we propose a 3D object detection architecture on point clouds. Our method models 3D object detection as message passing on a dynamic graph, generalizing the DGCNN framework to predict a set of objects. In our construction, we remove the necessity of post-processing via object confidence aggregation or non-maximum suppression. To facilitate object detection from sparse point clouds, we also propose a set-to-set distillation approach customized to 3D detection. This approach aligns the outputs of the teacher model and the student model in a permutation-invariant fashion, significantly simplifying knowledge distillation for the 3D detection task. Our method achieves state-of-the-art performance on autonomous driving benchmarks. We also provide abundant analysis of the detection model and distillation framework.

研究の動機と目的

  • 手作業で設計された後処理(NMS)を3D物体検出から除去して効率を改善することを動機づける。
  • 固定サイズの物体クエリ集合を出力する集合予測フレームワークを開発する。
  • 動的グラフ推論を利用して3Dシーンの物体関係をモデリングする。
  • 訓練中に教師付き情報を活用した集合間目的と蒸留を使って知識蒸留を可能にする。

提案手法

  • dense BEV特徴を作成するための格子ベースの BEV 特徴抽出器(PointPillars または SparseConv)を使用する。
  • L層を通して伝搬する Object DGCNN を導入し、それぞれの層が物体クエリの集合を予測し、学習済みサンプリングと双線形補間によって BEV特徴を集約する。
  • DGCNN風の疎グラフをクエリ間の物体-物体相互作用をモデリングする。
  • ground-truth集合と予測を整列させるためにHungarianマッチングを用いた一対一の集合間損失を適用する。
  • 教師-生徒の集合間蒸留を実装し、 permutation-invariant 出力整列を介して教師が生徒を導くことで特権情報の伝達を可能にする。

実験結果

リサーチクエスチョン

  • RQ13D物体検出を集合予測として捉え、NMS後処理を排除して精度を犠牲にせずに実現できるか?
  • RQ2BEV特徴の上にDGCNN風の物体関係を統合することは、密な自己注意機構より検出性能を改善するか?
  • RQ3集合間蒸留は特権情報(例:密な点群)を活用して性能を向上させるか?
  • RQ4バックボーン(PointPillars vs SparseConv)とDGCNN層数/隣接数が検出性能に与える影響は?
  • RQ5NMSなしの検出器は自動運転ベンチマークにおける最先端のNMSベースの3D検出器と競合できるか?

主な発見

  • 提案手法は自動運転ベンチマーク(nuScenes)で最先端の結果を達成し、NMSなしで動作する。
  • PointPillars または SparseConv をバックボーンとする Object DGCNN は CenterPoint 派生を上回り、ボクセルベースの設定は高い NDS と mAP を達成する。
  • DGCNNベースの物体関係モデリングは多頭自己注意より有利であり、隣接数16がパフォーマンスのベストバランスである。
  • DGCNN層数を増やすと性能が向上し、より深い動的グラフ推論の利点を確認。
  • 集合間蒸留(特権情報を含む)は、ベースラインや他の蒸留戦略より一貫した改善をもたらす。
  • 事前学習済みのバックボーンと共にエンドツーエンドで訓練でき、推論時にボックスを使用可能にするための後処理は必要ない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。