Skip to main content
QUICK REVIEW

[论文解读] (MGS)$^2$-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Minglei Li, Mengfan He|arXiv (Cornell University)|Feb 11, 2026
Robotics and Sensor-Based Localization被引用 0
一句话总结

本文提出了以 Macro-Geometric Structure Filtering 与 Micro-Geometric Scale Adaptation 相结合、并含有 Geometric-Appearance Contrastive Distillation 损失的几何-ground CVGL 框架,用以连接斜射 UAV 视图与卫星参考,在 University-1652 和 SUES-200 上实现了最先进的结果。

ABSTRACT

Cross-view geo-localization (CVGL) is pivotal for GNSS-denied UAV navigation but remains brittle under the drastic geometric misalignment between oblique aerial views and orthographic satellite references. Existing methods predominantly operate within a 2D manifold, neglecting the underlying 3D geometry where view-dependent vertical facades (macro-structure) and scale variations (micro-scale) severely corrupt feature alignment. To bridge this gap, we propose (MGS)$^2$, a geometry-grounded framework. The core of our innovation is the Macro-Geometric Structure Filtering (MGSF) module. Unlike pixel-wise matching sensitive to noise, MGSF leverages dilated geometric gradients to physically filter out high-frequency facade artifacts while enhancing the view-invariant horizontal plane, directly addressing the domain shift. To guarantee robust input for this structural filtering, we explicitly incorporate a Micro-Geometric Scale Adaptation (MGSA) module. MGSA utilizes depth priors to dynamically rectify scale discrepancies via multi-branch feature fusion. Furthermore, a Geometric-Appearance Contrastive Distillation (GACD) loss is designed to strictly discriminate against oblique occlusions. Extensive experiments demonstrate that (MGS)$^2$ achieves state-of-the-art performance, recording a Recall@1 of 97.5\% on University-1652 and 97.02\% on SUES-200. Furthermore, the framework exhibits superior cross-dataset generalization against geometric ambiguity. The code is available at: \href{https://github.com/GabrielLi1473/MGS-Net}{https://github.com/GabrielLi1473/MGS-Net}.

研究动机与目标

  • 桥接斜射 UAV 视图与正射卫星参考在 CVGL 中的三维几何差距。
  • 明确过滤并对齐宏观和微观几何信息以改善跨视图匹配。
  • 通过深度引导的多尺度融合与几何感知损失来缓解尺度与视角变化。
  • 展示在不同数据集上的最先进性能与泛化能力。

提出的方法

  • Macro-Geometric Structure Filtering (MGSF) 通过计算扩张几何梯度来抑制视图相关的竖直外墙伪影并强调水平平面。
  • Micro-Geometric Scale Adaptation (MGSA) 使用深度先验动态融合多尺度特征,并通过深度感知分支校正尺度差异。
  • MGSA 中的 Depth-Aware Scale Fusion (DASF) 创建近/中/远尺度分支并从深度嵌入中学习像素级尺度权重。
  • Geometric-Appearance Contrastive Distillation (GACD) 损失在屋顶与竖直外墙的语义激活之间强制边距以实现鲁棒判别。
  • 将 MGSA、MGSF 与 GACD 融合成端到端的检索框架,并使用加权三元组损失进行跨视图定位。

实验结果

研究问题

  • RQ1如何利用显式的三维宏观几何信息来减少斜射 UAV 图像与卫星正射影像之间的跨视图错位?
  • RQ2深度引导的微尺度自适应和几何感知过滤是否能提升 CVGL 中对尺度与视角变化的特征鲁棒性?
  • RQ3一种以几何为核心的蒸馏目标是否比传统深度回归损失更能对抗斜视遮挡?
  • RQ4所提方法在不同数据集与高度场景下的泛化与鲁棒性如何?

主要发现

MethodPublicationDrone → Satellite R@1Drone → Satellite APSatellite → Drone R@1Satellite → Drone AP
(MGS)² (Ours)97.5097.9798.5797.27
  • (MGS)² 在 University-1652 的 Recall@1 达到最先进水平(97.50),在 SUES-200 的 Drone→Satellite 为 97.02,Satellite→Drone 为 100.00。
  • Macro-Geometric Structure Filtering (MGSF) 模块有效抑制竖直外墙伪影并增强对视图不变的水平表面。
  • MGSA 在深度先验下提升对高度相关尺度变化的鲁棒性,在 SUES-200 的四个高度层(150–300m)上表现出强劲性能。
  • GACD 损失强制一个边距以强调几何一致性(屋顶样结构)而非斜视遮挡,提升排序质量。
  • 跨数据集泛化实验显示出显著的迁移能力,在 DenseUAV 上超越零-shot 基线,聚焦几何而非纹理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。