QUICK REVIEW

[논문 리뷰] Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation

Ken Deng, Yifu Qiu|arXiv (Cornell University)|2026. 01. 29.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

본 논문은 VRRPI-Bench와 VRRPI-Diag를 사용하여 시각-언어 모델(VLM)을 상대 카메라 포즈 추정에 대해 평가하고, LLM이 고전 기하학 방법 및 인간에 비해 뒤처지는 3D 근거 형성의 격차를 보이며, 이미지 쌍 간에 현저한 불일치가 있음을 보여준다.

ABSTRACT

Vision-Language Models (VLMs) perform well in 2D perception and semantic reasoning compared to their limited understanding of 3D spatial structure. We investigate this gap using relative camera pose estimation (RCPE), a fundamental vision task that requires inferring relative camera translation and rotation from a pair of images. We introduce VRRPI-Bench, a benchmark derived from unlabeled egocentric videos with verbalized annotations of relative camera motion, reflecting realistic scenarios with simultaneous translation and rotation around a shared object. We further propose VRRPI-Diag, a diagnostic benchmark that isolates individual motion degrees of freedom. Despite the simplicity of RCPE, most VLMs fail to generalize beyond shallow 2D heuristics, particularly for depth changes and roll transformations along the optical axis. Even state-of-the-art models such as GPT-5 ($0.64$) fall short of classic geometric baselines ($0.97$) and human performance ($0.92$). Moreover, VLMs exhibit difficulty in multi-image reasoning, with inconsistent performance (best $59.7\%$) when integrating spatial cues across frames. Our findings reveal limitations in grounding VLMs in 3D and multi-view spatial reasoning.

연구 동기 및 목표

Vision-Language Models (VLMs)의 2D 의미 이해를 넘어 3D 공간 추론에 대한 연구 필요성을 자극한다.
실제 자가시점 비디오에서 이산적 상대 카메라 움직임을 벤치마크하기 위해 VRRPI-Bench를 도입한다.
개별 모션 자유도(DoF)를 격리하는 진단 도구로 VRRPI-Diag를 제공한다.
다양한 VLM(오픈 소스, 독점, 미세조정)을 고전 기하학적 기준선 및 인간 성능과 비교 평가한다.
지각, 교차 뷰 대응, 카메라 시점 추론에 대한 오류 원인을 분석한다.

제안 방법

레이블이 없는 자가시점 비디오에서 상대 카메라 모션 주석을 구두화한 VRRPI-Bench를 만들고, 이를 통해 RCPE를 지배적인 카메라 모션 방향에 대한 이산 분류 문제로 형식화한다.
VRRPI-Diag를 개발하여 미세한 분석을 위한 단일 DoF 모션을 격리한다.
매크로 F1-점수로 인간 주석과 비교하여 VLM과 고전 기하학(SIFT, LoFTR + RANSAC)을 평가한다.
공간 순서 강건성 평가를 위해 입력 뷰 순서를 바꿔 일관성 테스트를 수행한다.
(내부-이미지, 교차-이미지, 카메라 시점 추론)에서의 제거-진단 분석을 수행하여 실패 모드를 위치시킨다.

실험 결과

연구 질문

RQ1최신 비전-언어 모델이 실제 세계 이미지 쌍으로부터 상대 3D 카메라 포즈를 추론할 수 있는가?
RQ2VLM이 2D 이미지-평면 휴리스틱에 의존하는가, 아니면 다중 뷰 추론을 위해 3D 기하를 근거로 삼는가?
RQ3특히 광축 방향에서 단일 DoF 대 다중 DoF 카메라 모션에서 VLM이 어디에서 어려움을 겪는가?
RQ4소스 뷰와 대상 뷰를 바꿨을 때 VLM의 일관성은 어떠한가?
RQ5진단 프롬프트나 명시적 참조가 교차 뷰 추론을 개선하는 정도는 어느 정도인가?

주요 결과

VLM(심지어 GPT-5 포함)은 VRRPI-Bench RCPE에서 고전 기하 방법(0.64 대 0.97)과 인간 성능(0.92)에 뒤처진다.
일관성 분석에 따르면 이미지 순서를 바꿨을 때 대부분의 VLM은 무작위 수준의 성능에 가깝고, GPT-5의 일관성은 59.7%이다.
VRRPI-Diag는 깊이 변환과 롤 회전에 대해 광축(z축)에서 가장 큰 도전을 드러낸다.
관련 WhatsUp 작업에서 단일 이미지의 공간 이해도는 현대 VLM에서 거의 포화 상태에 가까워 RCPE 격차가 기본적 공간 어휘가 아닌 다중 뷰 기하 추론에서 발생한다는 것을 시사한다.
모델은 뷰 간 객체 추적 및 객체 모션과 카메라 모션 간 역관계의 내재화에 한계가 있으며, 명시적 추론 프롬프트에도 불구하고 여전히 한계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.