[論文レビュー] Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection
Voxel Mamba は、State Space Models を用いてすべてのボクセルを1つのシーケンスに直列化するグループフリーのボクセルベースバックボーンを導入し、Dual-scale SSM Blocks と Implicit Window Partition により空間的近接性を保持し、3D物体検出の効率を向上させます。
Serialization-based methods, which serialize the 3D voxels and group them into multiple sequences before inputting to Transformers, have demonstrated their effectiveness in 3D object detection. However, serializing 3D voxels into 1D sequences will inevitably sacrifice the voxel spatial proximity. Such an issue is hard to be addressed by enlarging the group size with existing serialization-based methods due to the quadratic complexity of Transformers with feature sizes. Inspired by the recent advances of state space models (SSMs), we present a Voxel SSM, termed as Voxel Mamba, which employs a group-free strategy to serialize the whole space of voxels into a single sequence. The linear complexity of SSMs encourages our group-free design, alleviating the loss of spatial proximity of voxels. To further enhance the spatial proximity, we propose a Dual-scale SSM Block to establish a hierarchical structure, enabling a larger receptive field in the 1D serialization curve, as well as more complete local regions in 3D space. Moreover, we implicitly apply window partition under the group-free framework by positional encoding, which further enhances spatial proximity by encoding voxel positional information. Our experiments on Waymo Open Dataset and nuScenes dataset show that Voxel Mamba not only achieves higher accuracy than state-of-the-art methods, but also demonstrates significant advantages in computational efficiency.
研究の動機と目的
- serialization-based 3D detectors におけるボクセルのグルーピングを回避して近接性の損失を低減する動機づけ
- すべてのボクセルを1つのシーケンスとして処理するグループフリーボクセルSSMバックボーンの提案
- Dual-scale SSM blocks および Implicit Position Encoding による空間的近接性と受容野の強化
- Waymo Open および nuScenes データセットで最先端の精度と効率を実証
提案手法
- 空間局所性を保持するために Hilbert 入力層を用いてすべてのボクセルを1つのシーケンスに直列化する
- 前方(高分解能)および後方(ダウンサンプリング)ブランチを使用して実効受容野を拡大する Dual-scale SSM Block でボクセル相互作用をモデル化する
- Implicit Window Embedding を介してExplicit なウィンドウ設定なしに3D 的位置情報を符号化する Implicit Window Partition を導入する
- 既存의 ボクセルベース検出器および BEV バックボーンと互換性のあるグループフリーベースのバックボーンを採用する
- Waymo Open データセットおよび nuScenes で訓練・評価し、最先端手法と比較する
実験結果
リサーチクエスチョン
- RQ1グループフリーの状態空間バックボーンは、ボクセルベース3D検出におけるグルーピングベースの直列化手法を上回ることができるか?
- RQ2Dual-scale SSM Blocks と Implicit Window Embedding は、直列化されたボクセル系列における3D空間近接性と受容野を改善するか?
- RQ3Waymo および nuScenes における Voxel Mamba の精度と効率は、従来のバックボーンと比較してどの程度向上するか?
- RQ4Hilbert ベースのボクセル順序付けはモデルの性能とメモリ使用量にどのような影響を与えるか?
主な発見
- Voxel Mamba は Waymo バリデーションで 79.6/73.4 L1/L2 mAPH を達成し、DSVT-Voxel ベースラインを上回る
- Waymo テストセットで Voxel Mamba は 79.6/74.3 L1/L2 mAPH に到達し、いくつかのウィンドウベースおよびカーブベースのグルーピング手法を上回る
- nuScenes バリデーションで Voxel Mamba は 71.9 NDS および 67.5 mAP を達成し、前回の最高値をそれぞれ 0.5 NDS、0.8 mAP 上回る
- nuScenes テストで Voxel Mamba は 73.0 NDS および 69.0 mAP を達成し、 contemporaries の検出器と比較していくつかの指標で首位を獲得
- Voxel Mamba はグループベースのトランスフォーマよりメモリを抑えつつ、いくつかのベースラインより高い精度とより速い推論を実現
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。