Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models

Huy Thuc Ha, Shuran Song|arXiv (Cornell University)|Jul 23, 2022
Multimodal Machine Learning Applications被引用数 21
ひとこと要約

Semantic Abstraction (SemAbs) は relevancy maps を介して2Dビジョン-言語モデルに3D空間推論を付加し、オープンワールドの3Dシーン理解と新語彙・ドメインへのゼロショット汎化を実現します。オープンボキャブラリの意味論的シーン補完と視覚的に隠された物体の局在化というタスクを示します。

ABSTRACT

We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/

研究の動機と目的

  • オープンワールドタスクのための3Dトレーニングデータの不足と多様性の限界に対処する。
  • 大規模な2Dビジョン-言語モデルを活用して意味推論を提供しつつ、3D空間能力を意味論に依存しない方法で学習する。
  • 2D VLM 出力を部分的に観測されたまたは隠れた物体の3D占有に変換するモジュラーなフレームワーク(SemAbs)を開発する。
  • オープンワールド汎化を評価するタスクを示す:オープン語彙の意味場面補完と視覚的に遮蔽された物体の局在化。
  • 合成データから実世界ドメインへのゼロショット転移(sim2real)を実証する。

提案手法

  • Semantic Abstraction (SemAbs) は、RGB-D 入力とテキストラベルを relevancy map に変換する意味認識ラッパーで、事前学習済みの2D VLM(例:CLIP)を用いる。
  • relevancy map は3D空間へ投影され、意味抽象化された3Dモジュールへの入力として使用される点群を形成する。
  • 3D UNet はボクセル化された relevancy map を潜在ボリュームに符号化し、学習されたMLP がクエリポイントの占有確率をデコードする。
  • 3Dモジュールのみが限られた合成3Dデータセットで訓練され、意味推論は2D VLMへオフロードされ、オープンワールド汎化を可能にする。
  • マルチスケール relevancy extractor は小型または長尾の物体の検出を改善し、効率のため ViT ベースの CLIP を用いて実装されている。
  • このフレームワークは VLM に依存せず、AI2-THOR シミュレータのデータ生成パイプラインで OVSSC と VOOL タスクに対して実演されている。

実験結果

リサーチクエスチョン

  • RQ1SemAbs は、意味推論を2D VLMに委任しつつ、意味論に依存しない3D空間推論を学習することで、オープンワールドの3Dシーン理解を可能にするか?
  • RQ2限られた合成データで学習した場合、意味抽象化は新規語彙・物体・素材・照明・実世界ドメインへどの程度汎化するか?
  • RQ3新規の部屋・視覚要素・同義語・クラスに対して、オープンワールド3Dタスク(OVSSCとVOOL)はどのように性能を発揮するか?
  • RQ4relevancy map の品質が3D補完と局在化の性能に与える影響はどれくらいか?

主な発見

アプローチ新規部屋視覚同義語クラス
SemAware32.231.920.20.0
SemAbs+ [18]26.624.317.812.2
Ours40.136.433.437.9
  • SemAbs は、オープンワールドの意味論的シーン補完と物体局在において、意味認識ベースのベースラインや CLIP ベースの空間ベースラインを、新規の部屋・視覚・同義語・クラスにわたって上回る。
  • 意味抽象化を加えると、意味論と3D推論の両方を2D VLMへ委任するベースラインと比べて汎化性能が大幅に向上する。
  • マルチスケール relevancy extractor は、小型または長尾の物体検出で顕著な利得を提供し、素朴な実装と比べて効率性の向上もある。
  • このアプローチはゼロショット、sim2real転送を実証し、合成データで訓練したにもかかわらず実世界のMatterportスキャンで補完と局在を行う。
  • NYUv2 CAD では SemAbs がゼロショットの広カテゴリ予測(最大 894 クラス)と長尾オブジェクトの堅牢な性能を達成し、オープンワールド能力を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。