[論文レビュー] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models
Semantic Abstraction (SemAbs) は relevancy maps を介して2Dビジョン-言語モデルに3D空間推論を付加し、オープンワールドの3Dシーン理解と新語彙・ドメインへのゼロショット汎化を実現します。オープンボキャブラリの意味論的シーン補完と視覚的に隠された物体の局在化というタスクを示します。
We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/
研究の動機と目的
- オープンワールドタスクのための3Dトレーニングデータの不足と多様性の限界に対処する。
- 大規模な2Dビジョン-言語モデルを活用して意味推論を提供しつつ、3D空間能力を意味論に依存しない方法で学習する。
- 2D VLM 出力を部分的に観測されたまたは隠れた物体の3D占有に変換するモジュラーなフレームワーク(SemAbs)を開発する。
- オープンワールド汎化を評価するタスクを示す:オープン語彙の意味場面補完と視覚的に遮蔽された物体の局在化。
- 合成データから実世界ドメインへのゼロショット転移(sim2real)を実証する。
提案手法
- Semantic Abstraction (SemAbs) は、RGB-D 入力とテキストラベルを relevancy map に変換する意味認識ラッパーで、事前学習済みの2D VLM(例:CLIP)を用いる。
- relevancy map は3D空間へ投影され、意味抽象化された3Dモジュールへの入力として使用される点群を形成する。
- 3D UNet はボクセル化された relevancy map を潜在ボリュームに符号化し、学習されたMLP がクエリポイントの占有確率をデコードする。
- 3Dモジュールのみが限られた合成3Dデータセットで訓練され、意味推論は2D VLMへオフロードされ、オープンワールド汎化を可能にする。
- マルチスケール relevancy extractor は小型または長尾の物体の検出を改善し、効率のため ViT ベースの CLIP を用いて実装されている。
- このフレームワークは VLM に依存せず、AI2-THOR シミュレータのデータ生成パイプラインで OVSSC と VOOL タスクに対して実演されている。
実験結果
リサーチクエスチョン
- RQ1SemAbs は、意味推論を2D VLMに委任しつつ、意味論に依存しない3D空間推論を学習することで、オープンワールドの3Dシーン理解を可能にするか?
- RQ2限られた合成データで学習した場合、意味抽象化は新規語彙・物体・素材・照明・実世界ドメインへどの程度汎化するか?
- RQ3新規の部屋・視覚要素・同義語・クラスに対して、オープンワールド3Dタスク(OVSSCとVOOL)はどのように性能を発揮するか?
- RQ4relevancy map の品質が3D補完と局在化の性能に与える影響はどれくらいか?
主な発見
| アプローチ | 新規 | 部屋 | 視覚 | 同義語 | クラス |
|---|---|---|---|---|---|
| SemAware | 32.2 | 31.9 | 20.2 | 0.0 | |
| SemAbs+ [18] | 26.6 | 24.3 | 17.8 | 12.2 | |
| Ours | 40.1 | 36.4 | 33.4 | 37.9 |
- SemAbs は、オープンワールドの意味論的シーン補完と物体局在において、意味認識ベースのベースラインや CLIP ベースの空間ベースラインを、新規の部屋・視覚・同義語・クラスにわたって上回る。
- 意味抽象化を加えると、意味論と3D推論の両方を2D VLMへ委任するベースラインと比べて汎化性能が大幅に向上する。
- マルチスケール relevancy extractor は、小型または長尾の物体検出で顕著な利得を提供し、素朴な実装と比べて効率性の向上もある。
- このアプローチはゼロショット、sim2real転送を実証し、合成データで訓練したにもかかわらず実世界のMatterportスキャンで補完と局在を行う。
- NYUv2 CAD では SemAbs がゼロショットの広カテゴリ予測(最大 894 クラス)と長尾オブジェクトの堅牢な性能を達成し、オープンワールド能力を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。