QUICK REVIEW

[논문 리뷰] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models

Huy Thuc Ha, Shuran Song|arXiv (Cornell University)|2022. 07. 23.

Multimodal Machine Learning Applications인용 수 21

한 줄 요약

Semantic Abstraction (SemAbs) 는 relevancy maps를 통해 2D 시각-언어 모델에 3D 공간 추론을 보강하여 오픈 월드 3D 장면 이해와 새로운 어휘 및 도메인에 대한 제로샷 일반화를 가능하게 한다. 또한 오픈-어휘 시맨틱 장면 완성(Open-vocabulary semantic scene completion) 및 시각적으로 가려진 물체 로컬라이제이션과 같은 작업을 시연한다.

ABSTRACT

We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/

연구 동기 및 목표

오픈 월드 작업을 위한 3D 학습 데이터의 부족과 다양성의 한계를 해결한다.
대규모 2D 비전-언어 모델을 활용하여 시맨틱 추론을 제공하면서 3D 공간 능력을 시맨틱-독립적인 방식으로 학습한다.
부분적으로 관찰되거나 숨겨진 물체에 대해 2D VLM 출력으로부터 3D 점유(오큐펀시)로 변환하는 모듈형 프레임워크(SemAbs)를 개발한다.
오픈 월드 일반화를 테스트하는 작업을 선보인다: 오픈-어휘 시맨틱 장면 완성과 시각적으로 가려진 물체 로컬라이제이션.
합성 학습에서 실제 세계 도메인으로 제로샷 전이를 시연한다(sim2real).

제안 방법

Semantic Abstraction (SemAbs) 는 RGB-D 입력과 텍스트 라벨을 이용해 relevancy map으로 변환하는 시맨틱 인식 래퍼로 구성되며, 사전 학습된 2D VLM(예: CLIP)을 사용한다.
해당 relevancy map은 3D 공간으로 투영되어 점군(point cloud)을 형성하고, 이는 시맨틱-추상화된 3D 모듈의 입력으로 사용된다.
A 3D UNet encodes a voxelized relevancy map into a latent volume, and a learned MLP decodes occupancy probabilities for query points.
오로지 3D 모듈만 한정된 합성 3D 데이터셋에서 학습되며, 시맨틱 추론은 2D VLM에 위임되어 오픈 월드 일반화를 가능하게 한다.
다중 스케일 relevancy 추출기가 작고 희귀한 객체의 탐지를 개선하며, 효율성을 위해 ViT 기반 CLIP로 구현된다.
이 프레임워크는 VLM에 독립적이며 OVSSC 및 VOOL 작업에서 AI2-THOR 시뮬레이터의 데이터 생성 파이프라인으로 시연된다.

실험 결과

연구 질문

RQ1SemAbs가 2D VLM에 시맨틱 추론을 위임하고 3D 공간 추론을 시맨틱-독립적으로 학습하는 방식으로 오픈 월드 3D 장면 이해를 가능하게 할 수 있는가?
RQ2제한된 합성 데이터로 학습될 때 시맨틱 추상화가 새로운 어휘, 물체, 재료, 조명 및 실제 세계 도메인에 얼마나 잘 일반화되는가?
RQ3새로운 방, 시각적 요소, 동의어 및 클래스에 관해 오픈 월드 3D 작업(OVSSC 및 VOOL)의 성능은 어떠한가?
RQ4 relevancy map의 품질이 3D 완성 및 로컬라이제이션 성능에 미치는 영향은 무엇인가?

주요 결과

SemAbs는 새로운 방, 시각 요소, 동의어, 클래스에서 오픈 월드 시맨틱 장면 완성과 물체 로컬라이제이션에서 시맨틱 인식 기반 기초 방법 및 CLIP 기반 공간 기초 방법을 능가한다.
시맨틱 추상을 추가하면 시맨틱과 3D 추론을 모두 2D VLM에 위임한 베이스라인 대비 일반화가 크게 향상된다.
다중 스케일 relevancy 추출기는 작고 희귀한 물체 탐지에서 상당한 이점을 제공하며, 비경우적 구현보다 효율성이 증가한다.
본 접근법은 제로샷, sim2real 전이를 시연하여 합성 데이터로 학습했음에도 실제 Matterport 스캔에서 완성 및 로컬라이제이션을 수행한다.
NYUv2 CAD에서 SemAbs는 제로샷 광범주 예측(최대 894개 클래스) 및 희귀 물체에 대한 강건한 성능을 달성하여 Open-world 능력을 부각시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.