Skip to main content
QUICK REVIEW

[論文レビュー] LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation

Lei Yao, Yi Wang|arXiv (Cornell University)|Feb 11, 2026
3D Shape Modeling and Analysis被引用数 0
ひとこと要約

LaSSM は階層的意味空間クエリ初期化と座標誘導状態空間モデルデコーダを提案し、FLOPs を抑えつつ高精度な3D インスタンスセグメンテーションを実現、ScanNet++ V2 で最先端を達成。

ABSTRACT

Query-based 3D scene instance segmentation from point clouds has attained notable performance. However, existing methods suffer from the query initialization dilemma due to the sparse nature of point clouds and rely on computationally intensive attention mechanisms in query decoders. We accordingly introduce LaSSM, prioritizing simplicity and efficiency while maintaining competitive performance. Specifically, we propose a hierarchical semantic-spatial query initializer to derive the query set from superpoints by considering both semantic cues and spatial distribution, achieving comprehensive scene coverage and accelerated convergence. We further present a coordinate-guided state space model (SSM) decoder that progressively refines queries. The novel decoder features a local aggregation scheme that restricts the model to focus on geometrically coherent regions and a spatial dual-path SSM block to capture underlying dependencies within the query set by integrating associated coordinates information. Our design enables efficient instance prediction, avoiding the incorporation of noisy information and reducing redundant computation. LaSSM ranks first place on the latest ScanNet++ V2 leaderboard, outperforming the previous best method by 2.5% mAP with only 1/3 FLOPs, demonstrating its superiority in challenging large-scale scene instance segmentation. LaSSM also achieves competitive performance on ScanNet, ScanNet200, S3DIS and ScanNet++ V1 benchmarks with less computational cost. Extensive ablation studies and qualitative results validate the effectiveness of our design. The code and weights are available at https://github.com/RayYoh/LaSSM.

研究の動機と目的

  • sparseな3Dシーンにおけるクエリ初期化の課題に対して、包括的なシーンカバレッジと迅速な収束を保証する意味空間初期化子を設計する。
  • 計算効率の高いクエリデコーダを開発し、冗長性を最小限に抑えつつクエリを refine する。
  • デコーディングに位置情報を組み込み、注意機構を高価にせずインスタンス局在化を向上させる。
  • 大規模な室内データセットで、計算コストを削減しつつ最先端の性能を示す。

提案手法

  • 意味信頼度と空間分布に基づいてトップスコアのスーパーポイントを選択する階層的意味空間クエリ初期化子を導入し、次にFPS によって q クエリをサンプリングし、Q と Qc の埋め込みへ投影する。
  • 局所的集約モジュールを備え、幾何学的に近接するスーパーポイント間の相互作用を制限する座標誘導状態空間モデル(SSM)デコーダを実装し、複雑さを低減する。
  • 位置情報を保持するためHilbert曲線に沿ってクエリを直列化する空間的デュアルパスSSMブロックを使用し、全クエリ間の自己注意を必要とせずSSMベースのクエリ内通信を可能にする。
  • センターレグレッションヘッドを採用してクエリ座標を内容の refinement と同時に改良し、デコーダ層間で二部割りマッチング損失(Hungarian)を適用してエンドツーエンドの集合予測を行う。
  • 意味的に教師ありのスーパーポイントとマスク・分類・センター項を組み合わせた多目的損失関数、および標準的な意味論的クロスエントロピーで訓練する。
Figure 1: Query distribution and performance comparison. (a) We compare query distributions of farthest point sampling (FPS) [ schult2023mask3d ] , semantic confidence-based selection (Semantic) [ he2023fastinst ] , and our method on different scenes. (b) Compared to SPFormer [ sun2023spformer ] , O
Figure 1: Query distribution and performance comparison. (a) We compare query distributions of farthest point sampling (FPS) [ schult2023mask3d ] , semantic confidence-based selection (Semantic) [ he2023fastinst ] , and our method on different scenes. (b) Compared to SPFormer [ sun2023spformer ] , O

実験結果

リサーチクエスチョン

  • RQ1スパースな3D点群において、カバレッジを損なうことなく適応的かつ効率的なクエリ初期化をどのように実現できるか?
  • RQ2座標誘導型の低複雑度デコーダは、位置情報を保持しつつインスタンスクエリを効果的に refine できるか?
  • RQ3局所集約とHilbert曲線ベースのシーケンス化が3Dインスタンスセグメンテーションの性能と効率にどのような影響を与えるか?
  • RQ43Dクエリデコーディングに状態空間モデルを組み込むことで、Transformer ベースのデコーダと比較してFLOPsを削減しつつ精度向上を達成できるか?

主な発見

  • LaSSM は ScanNet++ V2 で最先端を達成し、リーダーボードで1位を獲得、以前の最高値を2.5% mAPおよび2.3% AP50上回り、FLOPs は1/3だけ。
  • ScanNet V2、ScanNet200、S3DIS、ScanNet++ V1 において、著しく低い計算コストで競争力のある結果を提供。
  • 階層的初期化子は意味的に自信があり空間的に分布するスーパーポイントを優先することで収束を改善し、シーン全体のカバレッジを確保。
  • 座標誘導SSMデコーダは局所的集約とデュアルパスSSMブロックを備え、全クエリ間の重いクロスアテンションを用いずに効率的なクエリ refine を実現。
  • 初期層でマスク付きクロスアテンションを用い、後半層で局所集約を適用するハイブリッド型は、精度と効率のバランスを維持。
Figure 2: Architecture of LaSSM. The input point cloud is processed by the feature extractor to obtain superpoint features ${\mathbf{F}}_{s}$ and coordinates ${\mathbf{C}}_{s}$ . Then the hierarchical semantic-spatial initializer is employed to initialize query contents ${\mathbf{Q}}$ and coordinate
Figure 2: Architecture of LaSSM. The input point cloud is processed by the feature extractor to obtain superpoint features ${\mathbf{F}}_{s}$ and coordinates ${\mathbf{C}}_{s}$ . Then the hierarchical semantic-spatial initializer is employed to initialize query contents ${\mathbf{Q}}$ and coordinate

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。