QUICK REVIEW

[論文レビュー] Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation

Ken Deng, Yifu Qiu|arXiv (Cornell University)|Jan 29, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

要約: 本論文は VRRPI-Bench および VRRPI-Diag を用いた relative camera pose estimation における vision-language models の評価を行い、LLMs が従来の幾何学的方法や人間に遅れをとる3D grounding ギャップを示し、画像ペア間で顕著な一貫性の問題があることを示している。

ABSTRACT

Vision-Language Models (VLMs) perform well in 2D perception and semantic reasoning compared to their limited understanding of 3D spatial structure. We investigate this gap using relative camera pose estimation (RCPE), a fundamental vision task that requires inferring relative camera translation and rotation from a pair of images. We introduce VRRPI-Bench, a benchmark derived from unlabeled egocentric videos with verbalized annotations of relative camera motion, reflecting realistic scenarios with simultaneous translation and rotation around a shared object. We further propose VRRPI-Diag, a diagnostic benchmark that isolates individual motion degrees of freedom. Despite the simplicity of RCPE, most VLMs fail to generalize beyond shallow 2D heuristics, particularly for depth changes and roll transformations along the optical axis. Even state-of-the-art models such as GPT-5 ($0.64$) fall short of classic geometric baselines ($0.97$) and human performance ($0.92$). Moreover, VLMs exhibit difficulty in multi-image reasoning, with inconsistent performance (best $59.7\%$) when integrating spatial cues across frames. Our findings reveal limitations in grounding VLMs in 3D and multi-view spatial reasoning.

研究の動機と目的

Vision-Language Models (VLMs) の2D意味理解を超えた3D空間推論の探究を促す。
実世界の自角視点動画から離散的相対カメラ運動をベンチマークするVRRPI-Benchを導入する。
個別の運動自由度を分離する診断ツールとしてVRRPI-Diagを提供する。
古典的幾何学的ベースラインおよび人間の性能と比較するため、オープンソース・プロプライエタリ・ファインチューニング済みを含む幅広いVLMを評価する。
知覚・視点間対応・カメラ視点推論を理解するための誤り源の分析を行う。

提案手法

ラベルなしの自角視点動画から相対カメラ運動の注釈を言語化してVRRPI-Benchを作成する。
RCPEを主なカメラ運動方向の離散分類タスクとして定式化する。
細粒度解析のために単一DoF運動を分離するVRRPI-Diagを開発する。
VLM を古典幾何学（SIFT、LoFTR + RANSAC）および人間の注釈と比較し、macro F1-score を用いて評価する。
空間順序の頑健性を評価するために入力視点の順序を入れ替える一貫性テストを実施する。
intra-image、cross-image、およびカメラ視点推論を含むアブレーション風診断分析を行い、故障モードを特定する。

実験結果

リサーチクエスチョン

RQ1最先端のビジョン-言語モデルは実世界の画像ペアから相対的な3Dカメラ姿勢を推定できるか。
RQ2VLMは2D画像平面のヒューリスティックに依存するのか、それとも多視点推論のために3D幾何を地に足のついた推論として grounding しているのか。
RQ3単一DoFと複数DoFのカメラ運動、特に光軸方向でVLMはどこで苦戦するのか。
RQ4ソースビューとターゲットビューを入れ替えたときVLMは一貫性を保つのか。
RQ5診断的プロンプティングや明示的な参照がクロスビュー推論を改善できる程度はどれくらいか。

主な発見

VLMs（GPT-5 を含む）はVRRPI-Bench RCPEで古典的幾何法（0.64対0.97）と人間の性能（0.92）に遅れを取る。
一貫性分析では画像順序を入れ替えると多くのVLMがほぼランダムに近い性能となり、GPT-5の一貫性は59.7％である。
VRRPI-Diag は深度変換とロール回転に沿った光軸（z軸）で最も強い課題を示す。
関連するWhatsUpタスクにおける単一画像の空間理解は現代のVLMsで飽和に近く、RCPEギャップは基本的な空間語彙よりも複数視点幾何推論から生じていることを示す。
モデルは視点間での物体追跡や物体運動とカメラ運動の逆相関を内在化する能力が限定的で、明示的な推論プロンプトがあっても同様である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。