[論文レビュー] DeepInteraction: 3D Object Detection via Modality Interaction
DeepInteraction は、マルチモーダル相互作用エンコーダとマルチモーダル予測的相互作用デコーダを通じて、モーダリティ特化の LiDAR と image 表現を保持し相互作用させ、nuScenes で最先端の 3D 物体検出を達成します。
Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.
研究の動機と目的
- モーダリティ固有の強みを捨てる可能性があるフュージョンベースのマルチモーダル3D検出の制約を動機づけて克服する。
- パイプライン全体で二つのモーダリティ固有表現を維持するモダリティ相互作用フレームワークを提案する。
- クロスモーダリティの利点を最大化するために、マルチモーダル表現相互作用を備えたエンコーダと、マルチモーダル予測的相互作用を備えたデコーダを設計する。
提案手法
- LiDAR BEV と image のパースペクティブ特徴を抽出するために、二つの並列バックボーンを使用する。
- MMRI(クロスモーダル対応付けマッピングとアテンション)と内部モーダル学習、および表現統合を備えたマルチ入力-マルチ出力エンコーダを採用する。
- 対応するモダリティ表現からの RoI 特徴を用いて、画像と LiDAR による検索クエリの精緻化を交互に行う予測的相互作用デコーダ(MMPI)を実装する。
- DETR に類似したセット予測フレームワークで訓練し、マッチングコストと損失を含める。
- nuScenes に対する性能を引き上げるため、テスト時拡張とモデルアンサンブルを用いて評価する。
実験結果
リサーチクエスチョン
- RQ1明示的なクロスモーダル相互作用を伴う別々のモダリティ特有表現を維持することは、従来のフュージョンされた表現より3D物体検出で上回ることができるか?
- RQ2マルチモーダル表現相互作用(MMRI)とマルチモーダル予測的相互作用(MMPI)は、オブジェクトカテゴリや距離にわたる検出精度にどのように寄与するか?
- RQ3エンコーダ/デコーダの設計と層数・クエリ数が検出性能と推論速度に及ぼす影響は?
主な発見
| 手法 | モダリティ | バックボーン | 検証 mAP | 検証 NDS | テスト mAP | テスト NDS | ||
|---|---|---|---|---|---|---|---|---|
| BEVDet4D | C | Swin-Base | - | 42.1 | 54.5 | 45.1 | 56.9 | |
| BEVFormer | C | V99 | - | - | 48.1 | 56.9 | ||
| Ego3RT | C | V99 | - | - | 47.8 | 53.4 | 42.5 | 47.9 |
| PolarFormer | C | V99 | - | - | 50.0 | 56.2 | 49.3 | 57.2 |
| CenterPoint | L | - | VoxelNet | 59.6 | 66.8 | 60.3 | 67.3 | |
| Focals Conv | L | - | VoxelNet-FocalsConv | 61.2 | 68.1 | 63.8 | 70.0 | |
| Transfusion-L | L | - | VoxelNet | 65.1 | 70.1 | 65.5 | 70.2 | |
| LargeKernel3D | L | - | VoxelNet-LargeKernel3D | 63.3 | 69.1 | 65.3 | 70.5 | |
| FUTR3D | L+C | R101 | VoxelNet | 64.5 | 68.3 | - | - | |
| PointAugmenting | L+C | DLA34 | VoxelNet | - | - | 66.8 | 71.0 | |
| MVP | L+C | DLA34 | VoxelNet | 67.1 | 70.8 | 66.4 | 70.5 | |
| AutoAlignV2 | L+C | CSPNet | VoxelNet | 67.1 | 71.2 | 68.4 | 72.4 | |
| TransFusion | L+C | R50 | VoxelNet | 67.5 | 71.3 | 68.9 | 71.6 | |
| BEVFusion | L+C | Swin-Tiny | VoxelNet | 67.9 | 71.0 | 69.2 | 71.8 | |
| DeepInteraction-base | L+C | R50 | VoxelNet | 69.9 | 72.6 | 70.8 | 73.4 | |
| Focals Conv-F | L+C | R50 | VoxelNet-FocalsConv | 67.1 | 71.5 | 70.1 | 73.6 | |
| LargeKernel3D-F | L+C | R50 | VoxelNet-LargeKernel | - | - | 71.1 | 74.2 | |
| DeepInteraction-large | L+C | Swin-Tiny | VoxelNet | 72.6 | 74.4 | 74.1 | 75.5 | |
| BEVFusion-e | L+C | Swin-Tiny | VoxelNet | 73.7 | 74.9 | 75.0 | 76.1 | |
| DeepInteraction-e | L+C | Swin-Tiny | VoxelNet | 73.9 | 75.0 | 75.6 | 76.3 |
- DeepInteraction-base、DeepInteraction-large、DeepInteraction-e を含む複数設定で nuScenes における最先端の結果を達成。
- DeepInteraction-base は ResNet-50 の image バックボーンを用いて従来手法を上回り、Swin バックボーンを使用する手法にも対抗。
- DeepInteraction-large と DeepInteraction-e は提出済み手法の中で nuScenes リーダーボードで1位に達し、LiDAR のみのベースラインより顕著な改善。
- アブレーションは MMRI(multimodal representational interaction)と MMPI(multimodal predictive interaction)がモダリティフュージョンや単一モダリティのベースラインより明確な利得をもたらすことを示す。
- LiDARバックボーン(PointPillars, VoxelNet)を跨いで、DeepInteraction は Transfusionベースおよび他のフュージョン手法と比較して一貫して mAP と NDS を改善。
- カテゴリ別分析では、小型または希少なカテゴリ(例: 自転車、オートバイ、交通コーン)でより大きな利得を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。