[論文レビュー] 3DSSD: Point-based 3D Single Stage Object Detector
軽量なポイントベースの3D単段検出器を導入し、アップサンプリングとリファインメント段を排除する。融合サンプリング戦略とアンカーフリーヘッドを用いて、KITTIとnuScenesで高速かつ高精度な3D検出を実現する。
Currently, there have been many kinds of voxel-based 3D single stage detectors, while point-based single stage methods are still underexplored. In this paper, we first present a lightweight and effective point-based 3D single stage object detector, named 3DSSD, achieving a good balance between accuracy and efficiency. In this paradigm, all upsampling layers and refinement stage, which are indispensable in all existing point-based methods, are abandoned to reduce the large computation cost. We novelly propose a fusion sampling strategy in downsampling process to make detection on less representative points feasible. A delicate box prediction network including a candidate generation layer, an anchor-free regression head with a 3D center-ness assignment strategy is designed to meet with our demand of accuracy and speed. Our paradigm is an elegant single stage anchor-free framework, showing great superiority to other existing methods. We evaluate 3DSSD on widely used KITTI dataset and more challenging nuScenes dataset. Our method outperforms all state-of-the-art voxel-based single stage methods by a large margin, and has comparable performance to two stage point-based methods as well, with inference speed more than 25 FPS, 2x faster than former state-of-the-art point-based methods.
研究の動機と目的
- raw point clouds without voxelization or two-stage refinement に直接対応した効率的で正確な3D物体検出を推進する。
- 高価なFP層とリファインメントモジュールを排除する軽量なポイントベース単段フレームワークを開発する。
- 下采サンプリング時に内部ポイントを保持し、堅牢な検出を可能にする融合サンプリングを提案する。
- 3D中心性を持つアンカーフリー回帰ヘッドと候補生成層を設計し、精度と速度のバランスを取る。
- 高い推論速度を保ちつつ、KITTIとnuScenesで最先端または競合的な性能を示す。
提案手法
- Fusion Sampling (FS) を用いた複数のSet Abstraction層を持つバックボーンで、正の内部点と代表的なネガティブ点の両方を保持する。
- Feature-FPS (F-FPS) は空間距離と特徴距離を組み合わせて点を選択し、ダウンサンプリング時の前景点の喪失を緩和する。
- Candidate Generation (CG) 層は F-FPS の点を移動させて候補中心を生成し、特徴抽出のため周囲の点を集める。
- アンカーフリーの回帰ヘッドは、単一段で各候補点の3Dボックスオフセット、サイズ、向きを予測する。
- 3D center-ness はインスタンス中心への近さを用いた3D ジオメトリック中心性の式で候補点をスコア付けし、分類を導く。
- Loss は分類、回帰(距離、サイズ、角度、コーナー)および CG のシフト supervison を組み合わせる。
実験結果
リサーチクエスチョン
- RQ1FP層やリファインメントモジュールなしで、完全にポイントベースの3D検出器が競争力のある精度を達成できるか?
- RQ2融合サンプリング戦略は難易度の高いデータセットで前景点の保持と全体の検出性能を改善するか?
- RQ3アンカーフリーで中心性に導かれたヘッドは、単一段フレームワークで正確な3D境界ボックス回帰に十分か?
主な発見
| Dataset | Method | Easy AP | Moderate AP | Hard AP |
|---|---|---|---|---|
| KITTI val | VoxelNet [36] | 81.97 | 65.46 | 62.85 |
| KITTI val | SECOND [31] | 87.43 | 76.48 | 69.10 |
| KITTI val | PointPillars [13] | - | 77.98 | - |
| KITTI val | Ours | 89.71 | 79.45 | 78.67 |
- KITTIで最先端のvoxelベース単段検出器を上回り、2段階のポイントベース手法と競合しつつ高い速度で動作する(KITTI のシーンあたり38 ms、Titan V 使用)。
- FS と F-FPS および D-FPS は内部点を保持し、十分なネガティブ点を維持して堅牢な分類を実現し、D-FPS および F-FPS のみよりも AP を改善。
- 3D center-ness を用いたアンカーフリー回帰は、インスタンス中心近傍の候補点を優先することで強力な局所化性能を得る。
- KITTI val の結果は Ours が 89.71 Easy, 79.45 Moderate, 78.67 Hard AP を達成し、SECOND および VoxelNet を上回り、moderate で PointPillars に匹敵または上回る。
- nuScenes では voxelベースの単段手法より強力な性能を発揮し、2段階のポイントベースアプローチと競合する結果を示し、速度と属性予測で優位性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。