[論文レビュー] Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation
HCF-RESはSAM案内によるインスタンスレベルおよびピクセルレベルのCLIP特徴を用いた階層的ビジュアルセマンティック分解を導入し、その後、進行的な多段階融合を経てScanReferおよびMulti3DReferで最先端の3D参照表現セグメンテーションを実現します。
Generalised 3D Referring Expression Segmentation (3D-GRES) localizes objects in 3D scenes based on natural language, even when descriptions match multiple or zero targets. Existing methods rely solely on sparse point clouds, lacking rich visual semantics for fine-grained descriptions. We propose HCF-RES, a multi-modal framework with two key innovations. First, Hierarchical Visual Semantic Decomposition leverages SAM instance masks to guide CLIP encoding at dual granularities -- pixel-level and instance-level features -- preserving object boundaries during 2D-to-3D projection. Second, Progressive Multi-level Fusion integrates representations through intra-modal collaboration, cross-modal adaptive weighting between 2D semantic and 3D geometric features, and language-guided refinement. HCF-RES achieves state-of-the-art results on both ScanRefer and Multi3DRefer.
研究の動機と目的
- Generalized 3D Referring Expression Segmentation (GRES)のために言語的セマンティクスと3D幾何を橋渡しする。
- 2Dから3Dへの投影時にオブジェクト境界を保持するため sparse point cloudを用いた多視点RGBセマンティクスを活用する。
- denseなピクセルレベルとインスタンスレベルの2D特徴を3D幾何と組み合わせる階層的・多モーダルな融合フレームワークを開発する。
- 言語誘導のインスタンス認識リファインメントを可能にし、クロスモーダルの整合性とセグメンテーション精度を向上させる。
- ScanReferとMulti3DReferデータセットで最先端の性能を示す。
提案手法
- SAMを用いてマルチビュー画像からインスタンスマスクを生成し、CLIPを利用して2D→3D投影のためのdenseピクセルレベルおよびインスタンスレベル特徴を抽出する階層的ビジュアルセマンティック分解(VSD)。
- denseなピクセルレベルの2D特徴はCLIP中間層から派生し、投影用にアップサンプリングされる。インスタンスレベル特徴はSAMマスクとガウシアンブラーによるソフトマスクを作成するマスク加重プーリングを介して得られる。
- 投影された2D特徴は3D特徴とともにスーパーポイントへ統合される。
- denseでインスタンス認識された2D特徴を統合的な2D表現へと融合するためのマルチヘッドアテンションを介した intra-modal コラボレート統合。
- 2Dセマンティックと3D幾何特徴を各スーパーポイント位置で空間的に適応的に重み付けしてブレンドするクロスモーダル動的統合。
- 言語誘導インスタンスリファインメントはFPSベースのサンプリングとテキスト埋め込みとのクロスアテンションを用いて、言語関連クエリのサブセットを選択し、効率的なインスタンス認識処理を実現する。
- インスタンスセグメンテーション損失(BCE+Dice)、IoUベースの信頼度、およびビジョン-ランゲージ対照学習を用いた最適化。
- 6層のデコーダが統一された多模領域表現から最終的な3D参照セグメンテーションを復元する。
実験結果
リサーチクエスチョン
- RQ1言語を3D点群に grounding する際に階層的インターネット object-level semantics をどのように保持するか?
- RQ2SAM-guided インスタンスとピクセルレベルのCLIP特徴は参照表現の2D→3D特徴整合性を改善するか?
- RQ3進行的な多段階融合はゼロターゲットやマルターゲットを含む一般化された3D-RESにおける内在・跨モーダル整合性を高めるか?
- RQ4言語誘導インスタンスリファインメントがセグメンテーション精度と効率に与える影響は?
主な発見
| Method | Venue | Overall | Acc@0.25 | Acc@0.5 | mIoU |
|---|---|---|---|---|---|
| InstanceRefer | ICCV2021 | 40.2 | 33.5 | 30.6 | 30.6 |
| 3D-STMN | AAAI2024 | 54.6 | 39.8 | 39.5 | 39.5 |
| SegPoint | ECCV2024 | - | - | 41.7 | 41.7 |
| Reason3D | 3DV2025 | 57.9 | 41.9 | 42.0 | 42.0 |
| MCLN | ECCV2024 | 58.7 | 50.7 | 44.7 | 44.7 |
| RefMask3D | ACMMM2024 | 55.9 | 49.2 | 44.9 | 44.9 |
| MDIN | ACMMM2024 | 58.0 | 53.1 | 48.3 | 48.3 |
| IPDN | AAAI2025 | 59.9 | 54.4 | 49.5 | 49.5 |
| HCF-RES | - | 60.9 | 55.7 | 50.5 | 50.5 |
- HCF-RESはScanReferおよびMulti3DReferで最先端のmIoUと精度を達成し、従来手法を上回る。
- ScanReferではHCF-RESは60.9% Acc@0.25、55.7% Acc@0.5、50.5% mIoUを達成。
- 3D-GRES評価(Multi3DRefer バリデーション)ではHCF-RESは53.5% mIoUを達成し、ゼロターゲット時の性能も高く(Acc@0.25 47.9% w/o distractors、86.0% with distractors)、マルチターゲットシナリオでも高精度(Acc@0.25 78.9、Acc@0.5 52.9)。
- 階層的ビジュアルセマンティック分解(VSD)と進行的多段階融合(MLF)の両方が寄与しており、別個に評価した場合VSDがより大きな利得をもたらすことが Ablation により示されている。
- 提案された intra-modal 融合と空間的に適応的な跨モーダル重み付けは、オブジェクト境界を保持し、セマンティックと幾何的手がかりのバランスをとることで堅牢性を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。