[論文レビュー] OpenMask3D: Open-Vocabulary 3D Instance Segmentation
OpenMask3D は、クラス非依存の3Dマスクを予測し、複数の視点に跨る CLIP ベースの画像特徴を集約して、オープンボキャブラリクエリのためのインスタンスごとのマスク特徴を形成します。
We introduce the task of open-vocabulary 3D instance segmentation. Current approaches for 3D instance segmentation can typically only recognize object categories from a pre-defined closed set of classes that are annotated in the training datasets. This results in important limitations for real-world applications where one might need to perform tasks guided by novel, open-vocabulary queries related to a wide variety of objects. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features for each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods cannot separate multiple object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. Experiments and ablation studies on ScanNet200 and Replica show that OpenMask3D outperforms other open-vocabulary methods, especially on the long-tail distribution. Qualitative experiments further showcase OpenMask3D's ability to segment object properties based on free-form queries describing geometry, affordances, and materials.
研究の動機と目的
- 未知の物体と自由形式のクエリを含むシーンに対して、オープンボキャブラリ3Dインスタンス分割タスクを動機づけ、定義する。
- オープンボキャブラリのクエリに適したマスク特徴を計算する2段階パイプラインを提案する。
- インスタンス中心の OpenMask3D が、特に長尾カテゴリで既存のオープンボキャブラリ手法を上回ることを示し、長尾オブジェクト情報を保持する。
提案手法
- 再構成された点群から二値インスタンスマスクを得るために、クラス非依存の3Dマスク提案ヘッドを用いる。
- インスタンスが最もよく見える上位kビューを選択して、SAMで精練した切り出しベースの2DマスクからマルチスケールのCLIP画像埋め込みを抽出し、マスクごとの特徴を計算する。
- ビュー間で視点ごとの CLIP 埋め込みを集約して、ファインチューニングなしに CLIP 空間で単一のインスタンス特徴を形成する。
- インスタンスを、インスタンスごとのマスク特徴と CLIP 空間のテキスト/画像埋め込みとのコサイン類似度を測定して照合し、オープンボキャブラリの記述を可能にする。
実験結果
リサーチクエスチョン
- RQ1オープンボキャブラリ3Dインスタンス分割は、閉じられたラベルセットを超える物体インスタンスを識別・区別できるか?
- RQ23Dインスタンスごとに複数視点のCLIP特徴を集約することで、オープンボキャブラリクエリに対して識別力のあるマスク特徴が得られるか?
- RQ3マルチスケールクロップや2Dマスクの精練といった設計選択は、オープンボキャブラリ3Dインスタンス分割の性能にどう影響するか?
- RQ4未見/新規カテゴリおよびouts-of-distributionデータに対するOpenMask3Dの一般化はどうなるか?
主な発見
| モデル | 画像特徴 | AP | AP 50 | AP 25 | head AP | common AP | tail AP |
|---|---|---|---|---|---|---|---|
| Mask3D [58] | - | 26.9 | 36.2 | 41.4 | 39.8 | 21.7 | 17.9 |
| OpenMask3D (Ours) | CLIP [55] | 15.4 | 19.9 | 23.1 | 17.1 | 14.1 | 14.9 |
- OpenMask3DはScanNet200とReplicaで他のオープンボキャブラリ手法より高いAPを達成し、特に長尾クラスで顕著です。
- ScanNet200では、CLIP特徴を用いたOpenMask3DはAP 15.4、AP50 19.9、AP25 23.1(head 17.1、common 14.1、tail 14.9)を達成。
- Replicaでは、OpenMask3DはAP 13.1、AP50 18.4、AP25 24.2を達成。
- アブレーションでは、2D SAMベースのマスキングとマルチスケールクロップの組み合わせが最良の性能をもたらすことを示す(AP 15.4、AP50 19.9、AP25 23.1)。
- OpenMask3Dは新規および分布外のカテゴリへ一般化し、いくつかの設定でOpenSceneベースのオープンボキャブラリ手法を上回る。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。