QUICK REVIEW

[論文レビュー] STD: Sparse-to-Dense 3D Object Detector for Point Cloud

Zetong Yang, Yanan Sun|arXiv (Cornell University)|Jul 22, 2019

Advanced Neural Network Applications参考文献 34被引用数 56

ひとこと要約

STDは、ポイントベースの球状アンカーを種として用いる2段階の3D物体検出器を導入し、PointsPool層でコンパクトな提案特徴を形成し、局在化を改善する3D IoUブランチを追加します。KITTIで約10 FPSの状態最先端の結果を達成します。

ABSTRACT

We present a new two-stage 3D object detection framework, named sparse-to-dense 3D Object Detector (STD). The first stage is a bottom-up proposal generation network that uses raw point cloud as input to generate accurate proposals by seeding each point with a new spherical anchor. It achieves a high recall with less computation compared with prior works. Then, PointsPool is applied for generating proposal features by transforming their interior point features from sparse expression to compact representation, which saves even more computation time. In box prediction, which is the second stage, we implement a parallel intersection-over-union (IoU) branch to increase awareness of localization accuracy, resulting in further improved performance. We conduct experiments on KITTI dataset, and evaluate our method in terms of 3D object and Bird's Eye View (BEV) detection. Our method outperforms other state-of-the-arts by a large margin, especially on the hard set, with inference speed more than 10 FPS.

研究の動機と目的

生データの点群上で直接、重いボクセル化を用いずに正確な3D物体検出を動機づける。
局在化情報を保持するために、球状アンカーを用いたポイントベースの提案生成を提案する。
CNNベースのヘッドのために、疎な提案特徴をコンパクトな表現に変換するPointsPoolを導入する。
局在化と分類を整合させるため、並列の3D IoUブランチを用いたボックス予測を強化する。
KITTI BEVおよび3D検出において最先端の性能を実証し、リアルタイム推論速度を実現する。

提案手法

各点に対し球状受容野を用いてアンカーをシードし、高リコールの提案を生成する。
提案スコアリングのために、各点の特徴を提供する3Dセマンティックセグメンテーションバックボーンを使用する。
内部点からコンパクトで微分可能な提案特徴を抽出するPointsPool層を適用する。
ボックスパラメータを推定し、NMSのソートを改善するために3D IoUを予測する2分岐のボックス予測器を採用する。
向き推定のためにハイブリッドな角度予測（分類＋回帰）を統合する。
セグメンテーション、提案の分類/回帰、IoU/ボックス損失を組み合わせたマルチタスク損失で訓練する。

実験結果

リサーチクエスチョン

RQ1ポイントベースで球状アンカー戦略は、アンカーと計算を削減しつつ高いリコールを達成できるか？
RQ2PointsPoolを介して疎な提案特徴を denseでCNNに適した表現に変換することは、速度と精度を向上させるか？
RQ3従来のNMSを超えて、3D IoU予測ブランチはポスト処理と局在化精度を改善できるか？
RQ4このSparse-to-Denseの2段階アプローチで、KITTI BEVおよび3D検出の成果はどの程度達成可能か？
RQ5標準的なGPUでリアルタイム推論に十分な効率性があるか？

主な発見

Method	Modality	AP_BEV Easy	AP_BEV Moderate	AP_BEV Hard	AP_3D Easy	AP_3D Moderate	AP_3D Hard
Ours	LiDAR	89.66	87.76	86.89	86.61	77.63	76.06

Car、Pedestrian、CyclistのKITTIでBEVおよび3D指標の最先端性能を達成し、Hardセットで顕著なゲインを示す。
voxelベースおよび他のポイントベース検出器を上回り、TitanV GPUで約10 FPSの推論を実現。
球状アンカーとPointsIoUラベリングは、プリューニング後で約16Kから約500程度と大幅にアンカー数を減らしつつ高いリコールを生み出す。
PointsPoolは、疎な内部点特徴を微分可能な密な提案表現に変換する、勾配に優しい手法を提供し、効率的な全結合ヘッドを可能にする。
IoU推定ブランチはNMSの有効性を向上させ、moderate KITTI valで最大約1.1%の利得をもたらし、分類信頼度と局在化品質の整合性を改善する。
分類スコアと予測IoUを組み合わせたNMSソート（cls-score × 3D-IoU）は、いずれかを単独で用いるよりも最終的なAPを向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。