[논문 리뷰] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models
Semantic Abstraction (SemAbs) 는 relevancy maps를 통해 2D 시각-언어 모델에 3D 공간 추론을 보강하여 오픈 월드 3D 장면 이해와 새로운 어휘 및 도메인에 대한 제로샷 일반화를 가능하게 한다. 또한 오픈-어휘 시맨틱 장면 완성(Open-vocabulary semantic scene completion) 및 시각적으로 가려진 물체 로컬라이제이션과 같은 작업을 시연한다.
We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/
연구 동기 및 목표
- 오픈 월드 작업을 위한 3D 학습 데이터의 부족과 다양성의 한계를 해결한다.
- 대규모 2D 비전-언어 모델을 활용하여 시맨틱 추론을 제공하면서 3D 공간 능력을 시맨틱-독립적인 방식으로 학습한다.
- 부분적으로 관찰되거나 숨겨진 물체에 대해 2D VLM 출력으로부터 3D 점유(오큐펀시)로 변환하는 모듈형 프레임워크(SemAbs)를 개발한다.
- 오픈 월드 일반화를 테스트하는 작업을 선보인다: 오픈-어휘 시맨틱 장면 완성과 시각적으로 가려진 물체 로컬라이제이션.
- 합성 학습에서 실제 세계 도메인으로 제로샷 전이를 시연한다(sim2real).
제안 방법
- Semantic Abstraction (SemAbs) 는 RGB-D 입력과 텍스트 라벨을 이용해 relevancy map으로 변환하는 시맨틱 인식 래퍼로 구성되며, 사전 학습된 2D VLM(예: CLIP)을 사용한다.
- 해당 relevancy map은 3D 공간으로 투영되어 점군(point cloud)을 형성하고, 이는 시맨틱-추상화된 3D 모듈의 입력으로 사용된다.
- A 3D UNet encodes a voxelized relevancy map into a latent volume, and a learned MLP decodes occupancy probabilities for query points.
- 오로지 3D 모듈만 한정된 합성 3D 데이터셋에서 학습되며, 시맨틱 추론은 2D VLM에 위임되어 오픈 월드 일반화를 가능하게 한다.
- 다중 스케일 relevancy 추출기가 작고 희귀한 객체의 탐지를 개선하며, 효율성을 위해 ViT 기반 CLIP로 구현된다.
- 이 프레임워크는 VLM에 독립적이며 OVSSC 및 VOOL 작업에서 AI2-THOR 시뮬레이터의 데이터 생성 파이프라인으로 시연된다.
실험 결과
연구 질문
- RQ1SemAbs가 2D VLM에 시맨틱 추론을 위임하고 3D 공간 추론을 시맨틱-독립적으로 학습하는 방식으로 오픈 월드 3D 장면 이해를 가능하게 할 수 있는가?
- RQ2제한된 합성 데이터로 학습될 때 시맨틱 추상화가 새로운 어휘, 물체, 재료, 조명 및 실제 세계 도메인에 얼마나 잘 일반화되는가?
- RQ3새로운 방, 시각적 요소, 동의어 및 클래스에 관해 오픈 월드 3D 작업(OVSSC 및 VOOL)의 성능은 어떠한가?
- RQ4 relevancy map의 품질이 3D 완성 및 로컬라이제이션 성능에 미치는 영향은 무엇인가?
주요 결과
- SemAbs는 새로운 방, 시각 요소, 동의어, 클래스에서 오픈 월드 시맨틱 장면 완성과 물체 로컬라이제이션에서 시맨틱 인식 기반 기초 방법 및 CLIP 기반 공간 기초 방법을 능가한다.
- 시맨틱 추상을 추가하면 시맨틱과 3D 추론을 모두 2D VLM에 위임한 베이스라인 대비 일반화가 크게 향상된다.
- 다중 스케일 relevancy 추출기는 작고 희귀한 물체 탐지에서 상당한 이점을 제공하며, 비경우적 구현보다 효율성이 증가한다.
- 본 접근법은 제로샷, sim2real 전이를 시연하여 합성 데이터로 학습했음에도 실제 Matterport 스캔에서 완성 및 로컬라이제이션을 수행한다.
- NYUv2 CAD에서 SemAbs는 제로샷 광범주 예측(최대 894개 클래스) 및 희귀 물체에 대한 강건한 성능을 달성하여 Open-world 능력을 부각시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.