[論文レビュー] Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
Group3Dはセマンティック制約を用いてマルチモーダル言語モデルを活用し、RGBのみの3D検出の3D監督なしでオープンセット検出を改善するために断片統合をセマンティック適合グループでゲートする。
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.
研究の動機と目的
- 室内シーンにおける3Dオブジェクト検出のオープンボキャブラリ問題に3D監督なしで Address する。
- インスタンス構築時にセマンティック制約を注入してジオメトリ主導の過剰統合を緩和する。
- MLLMを用いてシーン適応型語彙とセマンティックグループを開発する。
- ポーズ既知とポーズフリー(RGBのみ)の両方の運用を可能にする。
- ScanNetとARKitScenesで最先端性能と強力なゼロショット一般化を示す。
提案手法
- MLLMへビュー間で問い合わせてシーン適応型カテゴリ集合を形成することでシーン語彙メモリを構築する。
- SAMを介してカテゴリ認識型2Dマスクを持ち上げ、マルチビュー幾何学を用いて3Dリフティングのための3Dフラグメントメモリを構築する。
- MLLMを用いて意味的適合性グループにシーン語彙を分割し、跨ビューのカテゴリ同値性の妥当性を捉える。
- 意味的適合性(同一グループ)と体素レベルの幾何学的重複(IoUまたは包含ベースの重複)が成り立つ場合にのみ3Dフラグメントを統合する。
- 最終的なオ Open-vocabularyラベルを割り当て、3D境界ボックスを計算するためにマルチビュー証拠を集約する。
実験結果
リサーチクエスチョン
- RQ1MLLMからの意味的事前知識はオープンボキャブラリ3D検出における跨ビュー断片アソシエーションをどう改善するか。
- RQ2意味的ゲート統合はビュー依存または不完全なジオメトリの下でジオメトリ主導の過剰統合を減らすか。
- RQ33D監督や地真_depthのないRGBのみのパイプラインで競争力のあるオープンボキャブラリ3D検出を達成できるか。
主な発見
- Group3DはScanNetとARKitScenesにおけるマルチビューオープンボキャブラリ3D検出器の中で最先端性能を達成。
- 意味的適合性グルーピングは跨ビューラベル変動への堅牢性を高め、ジオメトリのみの統合と比較して過剰統合を減少させる。
- ポーズ既知・ポーズフリーの両方の設定でRGB観測のみを用いて機能し、ゼロショット一般化を達成。
- アブレーションにより意味的グルーピングが不可欠であり、これを除去すると性能が低下する一方、ビューごとのカテゴリ仮説数を変えても影響は限定的。
- 長尾語彙(ScanNet200)への一般化とデータセット間で意味的事前知識を転移する能力を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。