Skip to main content
QUICK REVIEW

[论文解读] Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Hongying Zhang, ShuaiShuai Ma|arXiv (Cornell University)|Mar 3, 2026
Robotics and Sensor-Based Localization被引用 0
一句话总结

提出 SFDE,一种三分支网络,联合学习时空和频域表征,用于跨视角地理定位,提高对视角变化的鲁棒性。

ABSTRACT

Cross-view geo-localization (CVGL) aims to establish spatial correspondences between images captured from significantly different viewpoints and constitutes a fundamental technique for visual localization in GNSS-denied environments. Nevertheless, CVGL remains challenging due to severe geometric asymmetry, texture inconsistency across imaging domains, and the progressive degradation of discriminative local information. Existing methods predominantly rely on spatial domain feature alignment, which is inherently sensitive to large scale viewpoint variations and local disturbances. To alleviate these limitations, this paper proposes the Spatial and Frequency Domain Enhancement Network (SFDE), which leverages complementary representations from spatial and frequency domains. SFDE adopts a three branch parallel architecture to model global semantic context, local geometric structure, and statistical stability in the frequency domain, respectively, thereby characterizing consistency across domains from the perspectives of scene topology, multiscale structural patterns, and frequency invariance. The resulting complementary features are jointly optimized in a unified embedding space via progressive enhancement and coupled constraints, enabling the learning of cross-view representations with consistency across multiple granularities. Comprehensive experiments show that SFDE achieves competitive performance and in many cases even surpasses state-of-the-art methods, while maintaining a lightweight and computationally efficient design. {Our code is available at https://github.com/Mashuaishuai669/SFDE

研究动机与目标

  • 解决由于几何不对称和纹理不匹配引起的跨视角地理定位挑战。
  • 利用互补的时空与频域表征改进跨视图匹配。
  • 开发一个多层次联合学习框架,整合全局语义、局部几何和频域稳定性。
  • 引入多尺度几何建模方法,以从局部纹理到中等尺度模式捕捉结构。
  • 证明在轻量高效的架构下仍具竞争力。

提出的方法

  • 三分支 SFDE 网络,包含 Global Semantic Consistency Branch (GSCB)、Local Geometric Sensitivity Branch (LGSB)、Frequency Stability Alignment Branch (FSAB)。
  • ConvNeXt-Tiny 主干提供给所有分支共享特征。
  • GSCB 采用全局池化和多样化嵌入分类器作为全局语义锚点。
  • LGSB 通过多尺度扩张卷积、交互注意力和自适应空间金字塔池化建模多尺度几何。
  • FSAB 将振幅谱和相位谱分离,应用自适应频率重加权,并在频域使用注意力和基于 GELU 的融合。
  • 在联合优化过程中,通过交叉熵、对比学习和跨域对齐损失监督各分支。

实验结果

研究问题

  • RQ1在严重视角变化下,联合时空与频域框架能否提升 CVGL 的鲁棒性?
  • RQ2全局语义、局部几何和频域稳定线索如何在跨视图嵌入学习中互补?
  • RQ3多尺度几何建模是否增强 UAV 到卫星定位中的局部到全局一致性?
  • RQ4自适应频率强调是否能提升跨域图像对的判别能力?

主要发现

  • SFDE 在竞争性性能方面表现突出,在某些情境甚至超过最先端方法。
  • 三分支设计在不同粒度层面捕捉信息,提升跨视图对齐。
  • 采用轻量级 ConvNeXt-Tiny 主干并结合多尺度与频域增强,兼顾效率与准确性。
  • LGSB 通过多尺度扩张卷积与自适应池化提升对透视变形与尺度变化的鲁棒性。
  • FSAB 利用振幅谱和相位谱并进行自适应重加权,稳定跨域匹配。
  • 该架构在保持计算效率的同时,仍提供强烈的定位性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。