Skip to main content
QUICK REVIEW

[論文レビュー] GPSBench: Do Large Language Models Understand GPS Coordinates?

Thinh Hung Truong, Jey Han Lau|arXiv (Cornell University)|Feb 18, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

GPSBenchは57,800サンプル・17タスクの大規模ベンチマークを提示し、14のLLMにおける内在的な地理空間推論を評価。基本的なGPS演算は得意だが、細粒度の地理的局在化と球面幾何、地理知識の粒度が細くなるほど劣化することを示す。

ABSTRACT

Large Language Models (LLMs) are increasingly deployed in applications that interact with the physical world, such as navigation, robotics, or mapping, making robust geospatial reasoning a critical capability. Despite that, LLMs' ability to reason about GPS coordinates and real-world geography remains underexplored. We introduce GPSBench, a dataset of 57,800 samples across 17 tasks for evaluating geospatial reasoning in LLMs, spanning geometric coordinate operations (e.g., distance and bearing computation) and reasoning that integrates coordinates with world knowledge. Focusing on intrinsic model capabilities rather than tool use, we evaluate 14 state-of-the-art LLMs and find that GPS reasoning remains challenging, with substantial variation across tasks: models are generally more reliable at real-world geographic reasoning than at geometric computations. Geographic knowledge degrades hierarchically, with strong country-level performance but weak city-level localization, while robustness to coordinate noise suggests genuine coordinate understanding rather than memorization. We further show that GPS-coordinate augmentation can improve in downstream geospatial tasks, and that finetuning induces trade-offs between gains in geometric computation and degradation in world knowledge. Our dataset and reproducible code are available at https://github.com/joey234/gpsbench

研究の動機と目的

  • ツール使用なしでLLMの内在的地理空間推論能力を評価する。
  • 幾何座標演算と地理的応用推論の性能を比較する。
  • 地理的粒度と座標ノイズへの頑健性を分析する。
  • GPS拡張とファインチューニングが下流のGPSタスクに与える影響を調査する。

提案手法

  • 57,800サンプル・17タスク(Pure GPSおよびAppliedトラック)を用いたGPSBenchを導入する。
  • WGS84楕円体上の測地公式とGeoNames由来データで真値を計算する。
  • スイーズロットやfew-shotの例を用いず、チェーン・オブ・思考なしのゼロショット promptingで14の最新LLMを評価する。
  • 複数択一タスクには正解率、数値タスクには1−MAPEを統一指標として用いる。
  • 地域別・粒度別の性能、座標ノイズへの頑健性、拡張/ファインチューニングの効果を分析する。

実験結果

リサーチクエスチョン

  • RQ1現在のLLMは内在的GPS座標計算(距離・方位・変換)と適用地理推論の能力がどの程度か。
  • RQ2地理的粒度(国対州/省対市)によって性能はどう影響を受けるか。
  • RQ3GPS座標をプロンプトに付与する拡張が下流の空間推論ベンチマークを改善するか。
  • RQ4ファインチューニングはゼロショットに比べてGPS推論にどのような影響を与えるか。
  • RQ5モデル規模はGPS推論能力にどのような影響を与えるか。

主な発見

  • 適用的な地理推論は純粋なGPS計算より全体として高い性能を示す。
  • GPT-5.1はPure GPS正解率84.4%を達成;Applied正解率はGPT-5-mini(74.1%)とGemini-2.5-Pro(73.4%)で最高。
  • 地理知識は階層的に劣化:国レベルの正解率は高いが、都市レベルの正解率はしばしば25%未満。
  • 座標ノイズの頑健性は memorization よりも実質的な理解を示す指標となり、国レベルの正解率は約79–82%、州/省は46–52%、都市は6–9%。
  • GPS拡張は下流タスクを改善(MapEval +6.1%、Hierarchical Spatial +22.7%)、ファインチューニングは幾何計算を改善するが世界知識タスクを損なう。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。