QUICK REVIEW

[論文レビュー] m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning

Yosub Shin, Michael Buriek|arXiv (Cornell University)|Jan 27, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

本論文は m2sv を提案し、ノースアップのオーバーヘッド地図を Street View 画像と対応付けてカメラの向きを推定するスケーラブルなベンチマークを提供し、モデルの性能・難易度・失敗モードを分析します。

ABSTRACT

Vision--language models (VLMs) achieve strong performance on many multimodal benchmarks but remain brittle on spatial reasoning tasks that require aligning abstract overhead representations with egocentric views. We introduce m2sv, a scalable benchmark for map-to-street-view spatial reasoning that asks models to infer camera viewing direction by aligning a north-up overhead map with a Street View image captured at the same real-world intersection. We release m2sv-20k, a geographically diverse benchmark with controlled ambiguity, along with m2sv-sft-11k, a curated set of structured reasoning traces for supervised fine-tuning. Despite strong performance on existing multimodal benchmarks, the best evaluated VLM achieves only 65.2% accuracy on m2sv, far below the human baseline of 95%. While supervised fine-tuning and reinforcement learning yield consistent gains, cross-benchmark evaluations reveal limited transfer. Beyond aggregate accuracy, we systematically analyze difficulty in map-to-street-view reasoning using both structural signals and human effort, and conduct an extensive failure analysis of adapted open models. Our findings highlight persistent gaps in geometric alignment, evidence aggregation, and reasoning consistency, motivating future work on grounded spatial reasoning across viewpoints.

研究の動機と目的

実際の交差点でオーバーヘッド地図と Street View 画像を整列させ、コアの空間推論プリミティブを分離する。
信頼性のある評価のための制御された曖昧さを持つ、地理的に多様なデータセット（m2sv-20k）を提供する。
supervised fine-tuning のための厳選されたトレースサブセット（m2sv-sft-11k）を提供し、適応が性能に与える影響を分析する。
構造的・人間の労力指標を用いて地図-to-street-view 推論の難易度を特徴づける。
将来の grounded 空間推論研究を導くための再発する失敗モードを特定する。

提案手法

実在の交差点から地図-to-street-view の例を自動的に構築するパイプラインを開発する。
各例につき2画像ペアを生成する：方向性の射線を持つ北上オーバーヘッド地図と交差点の Street View 画像。
地理的に多様で制御された曖昧さを持つ m2sv-20k を作成する。
supervised fine-tuning のために Gemini-2.5-Pro で注釈された m2sv-sft-11k トレースを提供する。
LoRA ベースのファインチューニングと強化学習を用いた zero-shot およびタスク適応設定で VLM を評価する。
推論ダイナミクスを理解するために構造的難易度、人間の努力の代理指標、モデルのトレースを分析する。

(a) North-up overhead map with labeled candidate directions.

実験結果

リサーチクエスチョン

RQ1視覚と言語モデルは、オーバーヘッド地図のジオメトリと自機視点の Street View を整列させて視点方向を推定できるか？
RQ2タスク特化の適応（SFT、RL）はパフォーマンスや他のベンチマークへの転移にどう影響するか？
RQ3構造的対称性、候補数、視覚的混同性など、地図-to-street-view の難易度を決定する要因は何か？
RQ4異なる視点での空間的グラウンディングにおける適応モデルの一般的な失敗モードは何か？
RQ5m2sv の改善は、より広いマルチモーダル空間推論タスクへ転移するか？

主な発見

m2sv に対するゼロショットの性能は人間レベルには程遠く、最良モデルでも 65.2% の正確度、 humans は 95%。
タスク特異的適応（SFT、RL）は一貫した向上をもたらすが、人間レベルにはまだ及ばない。
m2sv からのベンチマーク間転移は限定的で、タスク間で一貫性がなく、ベンチマーク固有の適応効果を示す。
構造的難易度は三差路の交差点で正規化された利得が高くなる場合があり、対称性はモデル挙動に非単調な影響を与える。
人間は難易度が高く対称的なケースでもほぼ天井近くの正確さを維持する一方で、モデルは難易度が上がると劣り、適応的推論が小さくなる。
失敗分析は、自己中心性-他称中心性の混乱、信頼性の低い手掛かりへの依存、ランドマークの誤結合、対称性のトラップといった再現的パターンを示す。

(b) Street View image captured at the same intersection.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。