[論文レビュー] Deep Continuous Fusion for Multi-Sensor 3D Object Detection
連続的なフュージョン層を用いてカメラ画像特徴をLIDAR BEVバックボーンに継続的に融合する2-streamのエンドツーエンド3D物体検出器を導入し、マルチセンサ3D定位の性能を向上させる。
In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
研究の動機と目的
- 自動運転における補完的なカメラとLIDARデータを用いた頑健な3D物体検出の動機づけ。
- 異なるモダリティ間で幾何情報を保持する学習可能なフュージョン機構の開発。
- BEVベース検出のための連続的・マルチスケールフュージョンを用いたエンドツーエンド訓練を可能にする。
- KITTIとTOR4Dベンチマークでリアルタイム性能と高精度を実証。
提案手法
- 画像とLIDAR BEVブランチを備えたデュアルストリームネットワークを提案。
- 画像特徴をBEVへ射影し、KNNベースの補間と3Dオフセットを取り入れるMLPを介してLIDAR BEV特徴と融合する連続フュージョン層を導入。
- 稀疎な画像-LIDAR対応から密なBEV特徴を補間する深いパラメトリック連続畳み込みを使用。
- フィーチャー・ピラミッド型BEVバックボーンの4層のフュージョン層で、マルチスケール画像特徴をBEVに融合。
- 3D境界ボックスと方位の分類および回帰項を組み合わせたマルチタスク損失でエンドツーエンド訓練。
実験結果
リサーチクエスチョン
- RQ1BEV空間における画像とLIDAR特徴の連続フュージョンは、LIDARのみおよび粗いフュージョンのベースラインより3D物体検出を改善できるか。
- RQ2KNNプーリングと幾何学的オフセット特徴がクロスモーダルフュージョン性能にどう影響するか。
- RQ3マルチスケール連続フュージョンにおける精度とリアルタイム推論のトレードオフは何か。
主な発見
| 入力 | 時間(秒) | 3D AP 易 | 3D AP 中等 | 3D AP 難 | BEV AP 易 | BEV AP 中等 | BEV AP 難 |
|---|---|---|---|---|---|---|---|
| MV3D [6] | 0.24 | 66.77 | 52.73 | 51.31 | 85.82 | 77.00 | 68.94 |
| VxNet [39] | 0.22 | 77.49 | 65.11 | 57.73 | 89.35 | 79.26 | 77.39 |
| NVLidarNet | 0.1 | n/a | n/a | n/a | 84.44 | 80.04 | 74.31 |
| PIXOR [37] | 0.035 | n/a | n/a | n/a | 87.25 | 81.92 | 76.01 |
| F-PC_CNN [8] | 0.5 | 60.06 | 48.07 | 45.22 | 83.77 | 75.26 | 70.17 |
| MV3D [6] | 0.36 | 71.09 | 62.35 | 55.12 | 86.02 | 76.90 | 68.49 |
| AVOD-FPN [18] | 0.1 | 81.94 | 71.88 | 66.38 | 88.53 | 83.79 | 77.90 |
| F-PointNet [26] | 0.17 | 81.20 | 70.39 | 62.19 | 88.70 | 84.00 | 75.33 |
| AVOD [18] | 0.08 | 73.59 | 65.78 | 58.38 | 86.80 | 85.44 | 77.73 |
| Our Cont Fuse | 0.06 | 82.54 | 66.22 | 64.04 | 88.81 | 85.83 | 77.33 |
- KITTI BEVで最先端手法を上回り、3D検出でも競争力があり、リアルタイム性能も高い(>15 FPS)。
- KITTIの結果は Our Cont Fuse が 3D AP easy 82.54, moderate 66.22, hard 64.04 および BEV AP easy 88.81, moderate 85.83, hard 77.33 を達成。
- TOR4Dの結果は、長距離性能が強く、マルチクラスBEV検出で良好な性能を示す(Vehicle AP0.5 94.94, Vehicle AP0.7 75.34; Pedestrian AP0.3 83.89, AP0.5 74.08; Bicyclist AP0.3 82.32, AP0.5 59.83)。
- LIDARのみおよび離散フュージョンベースラインと比較して、KNNプーリングと幾何オフセットを用いた連続フュージョンは指標全体で一貫した利得をもたらす。
- アブレーション研究は、KNNプーリングと幾何オフセット入力の双方が重要であり、いずれかを除くと性能が低下する。
- TOR4Dでは長距離の利点が顕著で、特にxが増加すると効果的な遠距離物体のフュージョンを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。