[论文解读] GPSBench: Do Large Language Models Understand GPS Coordinates?
GPSBench 提供一个覆盖 57,800 个样本、17 个任务的规模化基准,用以评估 14 个大语言模型的固有地理空间推理能力,显示在基本 GPS 计算方面表现出色,但在细粒度地理定位和球面对称几何方面存在不足,地理知识在粒度越细时下降。
Large Language Models (LLMs) are increasingly deployed in applications that interact with the physical world, such as navigation, robotics, or mapping, making robust geospatial reasoning a critical capability. Despite that, LLMs' ability to reason about GPS coordinates and real-world geography remains underexplored. We introduce GPSBench, a dataset of 57,800 samples across 17 tasks for evaluating geospatial reasoning in LLMs, spanning geometric coordinate operations (e.g., distance and bearing computation) and reasoning that integrates coordinates with world knowledge. Focusing on intrinsic model capabilities rather than tool use, we evaluate 14 state-of-the-art LLMs and find that GPS reasoning remains challenging, with substantial variation across tasks: models are generally more reliable at real-world geographic reasoning than at geometric computations. Geographic knowledge degrades hierarchically, with strong country-level performance but weak city-level localization, while robustness to coordinate noise suggests genuine coordinate understanding rather than memorization. We further show that GPS-coordinate augmentation can improve in downstream geospatial tasks, and that finetuning induces trade-offs between gains in geometric computation and degradation in world knowledge. Our dataset and reproducible code are available at https://github.com/joey234/gpsbench
研究动机与目标
- 在不使用工具的情况下评估 LLM 的固有地理空间推理能力。
- 评估几何坐标运算与应用地理推理的性能差异。
- 分析地理粒度与对坐标噪声的鲁棒性。
- 研究 GPS 增强与微调对下游 GPS 任务的影响。
提出的方法
- 推出包含 57,800 个样本、17 个任务的 GPSBench(纯 GPS 与应用 tracks)。
- 地理基线真值通过 WGS84 愭球体的大地测量公式及 GeoNames 派生数据计算。
- 在零-shot 提示、无链式推理、无少量示例的情况下评估 14 个最先进的 LLM。
- 对多选题以准确率衡量,对数值题以 1−MAPE 作为统一指标。
- 分析区域与粒度差异、对坐标噪声的鲁棒性,以及增强调度/微调的影响。
实验结果
研究问题
- RQ1当前的 LLM 在固有 GPS 坐标计算(距离、方位、变换)和应用地理推理方面的能力如何?
- RQ2地理粒度(国家/省级/城市)如何影响表现?
- RQ3通过在提示中加入 GPS 坐标是否能提升下游的空间推理基准?
- RQ4与零-shot 表现相比,微调对 GPS 推理有何影响?
- RQ5模型规模对 GPS 推理能力有何影响?
主要发现
- 总体上,模型在应用地理推理方面的表现高于纯 GPS 计算的表现。
- GPT-5.1 的纯 GPS 准确率为 84.4%;应用准确率在 GPT-5-mini(74.1%)和 Gemini-2.5-Pro(73.4%)中最高。
- 地理知识呈层级衰退:国家层面的准确率较高,城市级准确率往往低于 25%。
- 坐标噪声鲁棒性表明是对真实理解而非记忆的体现,国家级准确率约 79–82%,省级 46–52%,城市级 6–9%。
- GPS 增强对下游任务有提升(MapEval +6.1%,Hierarchical Spatial +22.7%),而微调提升了几何计算能力但削弱了世界知识相关任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。