QUICK REVIEW

[论文解读] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Modi Jin, Yiming Zhang|arXiv (Cornell University)|Feb 13, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

GeoAgent 使用带有人工标注的思维链的全新 GeoSeek 数据集，以及地理相似性和一致性奖励，训练出一个强化学习的 VLLM，能够以类人推理和高粒度本地化图像定位，优于多项地理定位基线在多个基准上的表现。

ABSTRACT

This paper presents GeoAgent, a model capable of reasoning closely with humans and deriving fine-grained address conclusions. Previous RL-based methods have achieved breakthroughs in performance and interpretability but still remain concerns because of their reliance on AI-generated chain-of-thought (CoT) data and training strategies, which conflict with geographic characteristics. To address these issues, we first introduce GeoSeek, a new geolocation dataset comprising CoT data annotated by geographic experts and professional players. We further thoroughly explore the inherent characteristics of geographic tasks and propose a geo-similarity reward and a consistency reward assessed by a consistency agent to assist training. This encourages the model to converge towards correct answers from a geographic perspective while ensuring the integrity and consistency of its reasoning process. Experimental results show that GeoAgent outperforms existing methods and a series of general VLLMs across multiple grains, while generating reasoning that closely aligns with humans.

研究动机与目标

将地理定位任务设定为需要类人推理和超越简单坐标匹配的细粒度定位的任务。
引入带有人工标注思维链与细粒度位置信息的 GeoSeek 数据集，以支持基于强化学习的学习。
提出地理相似性奖励（空间 + 语义）与一致性奖励，用于使模型推理与地理特性对齐并确保思维链完整性。
通过两阶段训练流程（在 GeoSeek-CoT 上进行监督微调，再进行基于 GRPO 的微调）来提升定位准确性和推理质量。

提出的方法

构建 GeoSeek，包括带有 1 万条人工标注推理轨迹的 GeoSeek-CoT，以及使用偏差降低采样的 2 万张街景图像的 GeoSeek-Loc。
定义地理相似性奖励，包含基于距离的空间相似性和基于文本编码的语义相似性，以引导收敛至地理正确且语义连贯的答案。
引入由独立一致性智能体评估的一致性奖励，以促进高质量、连贯的思维链推理。
将 GeoAgent 分两阶段训练：在 GeoSeek-CoT 上进行有监督微调，然后使用 GeoSeek-Loc 与地理相似性奖励的 GRPO 基于强化学习。
采用类似 PPO 的目标函数，结合批内候选奖励来优化策略（GRPO 框架）。
采用两模型设定（基础模型微调与独立的一致性代理）以及 OpenCage 的地理编码/反向编码来计算地理奖励。

实验结果

研究问题

RQ1地理定位模型是否能够学习与地理特征对齐的类人多层次推理，而不仅仅依赖 AI 生成的思维链？
RQ2在训练中加入地理相似性（空间与语义）以及一致性感知的训练循环，是否能在从粗到细的地理粒度上同时提升准确性和推理质量？
RQ3相比现有数据集，带偏差感知的 GeoSeek 数据集对基于强化学习的地理定位性能有何影响？
RQ4两阶段的 SFT+GRPO 训练机制对开放世界地理定位任务的泛化能力有何影响？

主要发现

GeoAgent 在多种地理粒度上优于现有方法及若干通用 VLLMs。
地理相似性奖励（空间 + 语义）比直接的文本相等性奖励更好地将训练信号对齐到地理任务。
一致性奖励提升思维链完整性，并在收敛后增强空间与语义奖励。
从 GeoSeek-CoT 冷启动相比于从非领域数据训练，显著提升了性能。
GeoAgent 在 GeoSeek-Val 上取得显著改进，包括在定位性与地理元素分布上的提升，表明对各类地理线索具有鲁棒理解。
消融实验显示每个奖励成分均对性能有贡献，空间奖励提供直接的强信号，一致性奖励则帮助 harder 的区域/城市级别。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。