QUICK REVIEW

[論文レビュー] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models

Huy Thuc Ha, Shuran Song|arXiv (Cornell University)|Jul 23, 2022

Multimodal Machine Learning Applications被引用数 21

ひとこと要約

Semantic Abstraction (SemAbs) は relevancy maps を介して2Dビジョン-言語モデルに3D空間推論を付加し、オープンワールドの3Dシーン理解と新語彙・ドメインへのゼロショット汎化を実現します。オープンボキャブラリの意味論的シーン補完と視覚的に隠された物体の局在化というタスクを示します。

ABSTRACT

We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/

研究の動機と目的

オープンワールドタスクのための3Dトレーニングデータの不足と多様性の限界に対処する。
大規模な2Dビジョン-言語モデルを活用して意味推論を提供しつつ、3D空間能力を意味論に依存しない方法で学習する。
2D VLM 出力を部分的に観測されたまたは隠れた物体の3D占有に変換するモジュラーなフレームワーク（SemAbs）を開発する。
オープンワールド汎化を評価するタスクを示す：オープン語彙の意味場面補完と視覚的に遮蔽された物体の局在化。
合成データから実世界ドメインへのゼロショット転移（sim2real）を実証する。

提案手法

Semantic Abstraction (SemAbs) は、RGB-D 入力とテキストラベルを relevancy map に変換する意味認識ラッパーで、事前学習済みの2D VLM（例：CLIP）を用いる。
relevancy map は3D空間へ投影され、意味抽象化された3Dモジュールへの入力として使用される点群を形成する。
3D UNet はボクセル化された relevancy map を潜在ボリュームに符号化し、学習されたMLP がクエリポイントの占有確率をデコードする。
3Dモジュールのみが限られた合成3Dデータセットで訓練され、意味推論は2D VLMへオフロードされ、オープンワールド汎化を可能にする。
マルチスケール relevancy extractor は小型または長尾の物体の検出を改善し、効率のため ViT ベースの CLIP を用いて実装されている。
このフレームワークは VLM に依存せず、AI2-THOR シミュレータのデータ生成パイプラインで OVSSC と VOOL タスクに対して実演されている。

実験結果

リサーチクエスチョン

RQ1SemAbs は、意味推論を2D VLMに委任しつつ、意味論に依存しない3D空間推論を学習することで、オープンワールドの3Dシーン理解を可能にするか？
RQ2限られた合成データで学習した場合、意味抽象化は新規語彙・物体・素材・照明・実世界ドメインへどの程度汎化するか？
RQ3新規の部屋・視覚要素・同義語・クラスに対して、オープンワールド3Dタスク（OVSSCとVOOL）はどのように性能を発揮するか？
RQ4relevancy map の品質が3D補完と局在化の性能に与える影響はどれくらいか？

主な発見

アプローチ	新規	部屋	視覚	同義語
SemAware	32.2	31.9	20.2	0.0
SemAbs+ [18]	26.6	24.3	17.8	12.2
Ours	40.1	36.4	33.4	37.9

SemAbs は、オープンワールドの意味論的シーン補完と物体局在において、意味認識ベースのベースラインや CLIP ベースの空間ベースラインを、新規の部屋・視覚・同義語・クラスにわたって上回る。
意味抽象化を加えると、意味論と3D推論の両方を2D VLMへ委任するベースラインと比べて汎化性能が大幅に向上する。
マルチスケール relevancy extractor は、小型または長尾の物体検出で顕著な利得を提供し、素朴な実装と比べて効率性の向上もある。
このアプローチはゼロショット、sim2real転送を実証し、合成データで訓練したにもかかわらず実世界のMatterportスキャンで補完と局在を行う。
NYUv2 CAD では SemAbs がゼロショットの広カテゴリ予測（最大 894 クラス）と長尾オブジェクトの堅牢な性能を達成し、オープンワールド能力を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。