QUICK REVIEW

[논문 리뷰] SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Boyuan Chen, Zhuo Xu|arXiv (Cornell University)|2024. 01. 22.

Multimodal Machine Learning Applications인용 수 5

한 줄 요약

SpatialVLM은 대규모 합성 3D 공간 추론 데이터셋에서 시각-언어 모델을 학습시켜 2D 이미지로부터의 거리 추정 같은 질적/양적 공간 추론과 LLM들과의 사고 흐름 기반 공간 추론을 가능하게 한다.

ABSTRACT

Understanding and reasoning about spatial relationships is a fundamental capability for Visual Question Answering (VQA) and robotics. While Vision Language Models (VLM) have demonstrated remarkable performance in certain VQA benchmarks, they still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size differences. We hypothesize that VLMs' limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. To this end, we present a system to facilitate this approach. We first develop an automatic 3D spatial VQA data generation framework that scales up to 2 billion VQA examples on 10 million real-world images. We then investigate various factors in the training recipe, including data quality, training pipeline, and VLM architecture. Our work features the first internet-scale 3D spatial reasoning dataset in metric space. By training a VLM on such data, we significantly enhance its ability on both qualitative and quantitative spatial VQA. Finally, we demonstrate that this VLM unlocks novel downstream applications in chain-of-thought spatial reasoning and robotics due to its quantitative estimation capability. Project website: https://spatial-vlm.github.io/

연구 동기 및 목표

현 VLM에서 3D 공간 추론의 부족을 동기 부여하고 해소한다.
현실 세계 이미지로부터 3D 공간 추론 VQA 데이터를 생성하는 자동적이고 확장 가능한 데이터 생성 파이프라인을 개발한다.
합성 공간 QA 데이터로 VLM을 학습시켜 질적 및 양적 공간 추론을 향상시킨다.
로보틱스, 보상 표기, 그리고 LLM 조정을 통한 사고 흐름 공간 추론의 하류 이점을 시연한다.

제안 방법

실제 이미지에서 물체 맥락을 추출하기 위해 오픈-어휘 탐지, metric depth 추정, 의미 분할, 및 물체 중심의 캡션화를 사용한다.
깊이 추정으로 2D 맥락을 3D로 확장하고 표준화된 좌표를 갖는 3D 포인트 클라우드로 변환한다.
템플릿 기반 질문을 사용해 10M 이미지에서 2B 공간 QA 쌍을 생성한다(질적 및 양적).
PaLM-E 계열의 비전-언어 모델을 PaLM-E 데이터와 SpatialVLM 공간 데이터의 혼합으로 학습시키고 5%의 공간 토큰을 사용한다.
다단계 공간 작업을 위한 SpatialVLM 출력과 대형 언어 모델(예: GPT-4)을 조정하여 사고 흐름 공간 추론을 가능하게 한다.
데이터 품질, 학습 파이프라인, ViT 동결 여부가 공간 추론 역량에 어떤 영향을 미치는가를 조사한다.

실험 결과

연구 질문

RQ1합성 3D 공간 추론 데이터가 VLM이 질적 및 양적 공간 질문에 답하는 능력을 향상시킬 수 있는가?
RQ2데이터 품질, 학습 전략, 모델 동결 여부가 공간 추론 성능에 어떤 영향을 미치는가?
RQ3SpatialVLM이 로봇 공학 태스크와 사고 흐름 추론을 지원하기 위한 거리/크기 추정치를 신뢰성 있게 제공할 수 있는가?

주요 결과

SpatialVLM은 이진 술어 태스크에서 GPT-4V, LLaVA-1.5, InstructBLIP, PaLI, PaLM-E, PaLM 2-E보다 높은 질적 공간 추론 정확도를 달성한다(75.2% 대 68.0–60.7%).
SpatialVLM은 양적 공간 질문에서 더 높은 정확도를 달성하며, 거리 추정에서 출력이 종종 범위 내에 있어 거리 관련 지표에서 기준 모델을 능가한다.
SpatialVLM 데이터와의 동시 학습은 OKVQA 및 VQA v2에서 경쟁력 있는 VQA 성능을 제공한다(예: SpatialVLM 데이터 없이 PaLM 2-E 대비 VQA v2에서 2.4% 향상).
ViT의 언 freezing 해제가 미세한 거리 추정 정확도를 향상시킨다; 고정된 ViT는 거리 범위 전반에서 정확도가 낮다.
오염된 공간 데이터로 학습된 VLM은 여전히 일반적인 공간 추론을 학습하며, 양적 답변의 잡음 수준에 대한 강건성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.