QUICK REVIEW

[论文解读] Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking

Nan Jiang, Kuiran Wang|arXiv (Cornell University)|Jan 21, 2021

Video Surveillance and Tracking Methods参考文献 94被引用 68

一句话总结

本论文提出 Anti-UAV，一个包含 318 对视频的 RGB-T UAV 跟踪基准，以及 580k+ 边界框，并提出双流语义一致性（DFSC）训练策略，以提升多模态数据下的无人机跟踪。

ABSTRACT

Unmanned Aerial Vehicle (UAV) offers lots of applications in both commerce and recreation. With this, monitoring the operation status of UAVs is crucially important. In this work, we consider the task of tracking UAVs, providing rich information such as location and trajectory. To facilitate research on this topic, we propose a dataset, Anti-UAV, with more than 300 video pairs containing over 580k manually annotated bounding boxes. The releasing of such a large-scale dataset could be a useful initial step in research of tracking UAVs. Furthermore, the advancement of addressing research challenges in Anti-UAV can help the design of anti-UAV systems, leading to better surveillance of UAVs. Besides, a novel approach named dual-flow semantic consistency (DFSC) is proposed for UAV tracking. Modulated by the semantic flow across video sequences, the tracker learns more robust class-level semantic information and obtains more discriminative instance-level features. Experimental results demonstrate that Anti-UAV is very challenging, and the proposed method can effectively improve the tracker's performance. The Anti-UAV benchmark and the code of the proposed approach will be publicly available at https://github.com/ucas-vg/Anti-UAV.

研究动机与目标

引入一个大型多模态 UAV 跟踪数据集（RGB 与红外），包含成对且未对齐的序列，用于研究远距离无人机跟踪。
提供全面的基线和评估协议，用于在多模态和跨序列情景下评估无人机跟踪。
提出 DFSC（dual-flow semantic consistency）以学习用于无人机跟踪的鲁棒的类别级和实例级特征。
提供关于数据集属性、挑战性场景及面向无人机状态感知的评估指标的见解。

提出的方法

构建一个包含 318 对 RGB-T 视频的 UAV 跟踪基准，具有 580k+ 手工标注的边界框和多样化场景。
提出 dual-flow semantic consistency (DFSC) 训练：跨序列的类别级语义调制（CSM）以及序列内的实例级语义调制（ISM）。
使用跨序列 UAV 特征在 CSM 中对搜索区域建议进行调制，以及在 ISM 中使用当前序列 ROI 特征进行调制。
使用查询引导的 RPN 以及随后的 RCNN 阶段将调制特征用于分类和回归。
提供与协议相关的训练设置和基线，包括对 GlobalTrack 和 Faster RCNN 的适配以适应 RGB 和 IR 数据。

实验结果

研究问题

RQ1当前在大规模、跨模态的 UAV 跟踪基准（RGB-T）上，对非对齐序列的跟踪器表现如何？
RQ2当仅存在一个对象类别时，跨序列语义调制是否能提升对 UAV 的类别级辨别能力？
RQ3序列内的实例级语义调制是否能提升对相似 UAV 实例和干扰项的辨别能力？
RQ4无对齐的多模态（RGB 和 IR）数据对 UAV 跟踪性能与评估有何影响？
RQ5哪些训练策略和评估协议最能揭示 Anti-UAV 上的无人机跟踪能力？

主要发现

Anti-UAV 提供 318 对 RGB-T 视频对，含有超过 580k 的边界框及用于分析的多种属性。
DFSC 在 Anti-UAV 上显著提升跟踪性能，相对于基线，利用了跨序列和序列内的语义调制。
实验显示不同跟踪器和属性之间存在显著的性能差异，突显该数据集在 UAV 跟踪方面的挑战性。
评估协议 I–III 支持在可见/IR 数据、训练数据使用和多模态集成下的评估，包括非对齐的 RGB-T 对。
基于 RF 的和深度跟踪器呈现不同的增益，DFSC 相较于若干最先进的跟踪器在基准测试中取得显著改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。