[论文解读] UAV-VisLoc: A Large-scale Dataset for UAV Visual Localization
本论文介绍 UAV-VisLoc,这是一个大规模的无人机视觉定位数据集,将地面降拍的无人机图像与相应的正射校正后的卫星地图配对,以在没有 GNSS 的情况下实现高精度定位。它提供多样化场景、高度和航向,以支持定位模型的训练与测试。
The application of unmanned aerial vehicles (UAV) has been widely extended recently. It is crucial to ensure accurate latitude and longitude coordinates for UAVs, especially when the global navigation satellite systems (GNSS) are disrupted and unreliable. Existing visual localization methods achieve autonomous visual localization without error accumulation by matching the ground-down view image of UAV with the ortho satellite maps. However, collecting UAV ground-down view images across diverse locations is costly, leading to a scarcity of large-scale datasets for real-world scenarios. Existing datasets for UAV visual localization are often limited to small geographic areas or are focused only on urban regions with distinct textures. To address this, we define the UAV visual localization task by determining the UAV's real position coordinates on a large-scale satellite map based on the captured ground-down view. In this paper, we present a large-scale dataset, UAV-VisLoc, to facilitate the UAV visual localization task. This dataset comprises images from diverse drones across 11 locations in China, capturing a range of topographical features. The dataset features images from fixed-wing drones and multi-terrain drones, captured at different altitudes and orientations. Our dataset includes 6,742 drone images and 11 satellite maps, with metadata such as latitude, longitude, altitude, and capture date. Our dataset is tailored to support both the training and testing of models by providing a diverse and extensive data.
研究动机与目标
- 将 UAV 可视化定位任务定义为在 GNSS 不可用时,基于地面降下的图像在大尺度卫星地图上确定 UAV 的真实坐标。
- 提供一个多样化、大规模的数据集,以在多地形、多高度和多航向场景下训练和评估视觉定位模型。
- 通过包含固定翼和多地形无人机来补充现有数据集,以提升模型的泛化能力。
- 提供元数据(纬度、经度、高度、捕获日期、航向)和卫星地图覆盖范围,以支持稳健的基准测试。
提出的方法
- 在中国的 11 个地点收集来自固定翼和多地形 UAV 的无人机图像,海拔从 400 到 2,000 米。
- 获取与 UAV 飞行范围相对应、分辨率为 0.3 m 的 11 张 Google Earth 卫星地图。
- 为每张无人机图像标注中心坐标、高度、日期和航向角(Phi);提供卫星地图坐标范围。
- 定义用于将地面降下视图与卫星地图匹配以进行定位与导航任务的数据管道。
- 描述数据集结构及用于训练/测试视觉定位模型的潜在预处理步骤。

实验结果
研究问题
- RQ1在没有 GNSS 的情况下,是否可以通过视觉匹配将地面降下的 UAV 图像可靠地定位在大尺度卫星地图上?
- RQ2高度、航向和地形的多样性如何影响定位性能?
- RQ3包含固定翼和多地形数据是否能提升视觉定位方法的泛化能力?
- RQ4哪些元数据对支持稳健的训练与定位模型评估是必需的?
主要发现
- UAV-VisLoc 数据集包含 6,742 张无人机图像和 11 张卫星地图,覆盖多样地形。
- 数据集包括详细元数据:每张无人机图像的纬度、经度、高度、捕获日期和航向角。
- 卫星地图来自 Google Earth,分辨率为 0.3 m,覆盖 UAV 的飞行范围。
- 图片覆盖不同的高度(400–2,000 m)和朝向,以捕捉多域场景。
- 数据集通过提供对齐的地面与卫星视图,支持 UAV 视觉定位任务的训练与测试。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。