[论文解读] Vision Meets Drones: A Challenge
VisDrone2018 提供一个大规模基于无人机的视觉对象检测与跟踪基准测试,覆盖 2.5 million 注释实例,遍布 179,264 帧,来自 14 个中国城市,涵盖四个任务(图像/视频检测、单目标和多目标跟踪)。
In this paper we present a large-scale visual object detection and tracking benchmark, named VisDrone2018, aiming at advancing visual understanding tasks on the drone platform. The images and video sequences in the benchmark were captured over various urban/suburban areas of 14 different cities across China from north to south. Specifically, VisDrone2018 consists of 263 video clips and 10,209 images (no overlap with video clips) with rich annotations, including object bounding boxes, object categories, occlusion, truncation ratios, etc. With intensive amount of effort, our benchmark has more than 2.5 million annotated instances in 179,264 images/video frames. Being the largest such dataset ever published, the benchmark enables extensive evaluation and investigation of visual analysis algorithms on the drone platform. In particular, we design four popular tasks with the benchmark, including object detection in images, object detection in videos, single object tracking, and multi-object tracking. All these tasks are extremely challenging in the proposed dataset due to factors such as occlusion, large scale and pose variation, and fast motion. We hope the benchmark largely boost the research and development in visual analysis on drone platforms.
研究动机与目标
- 通过一个大规模基准测试,激发并促进在无人机平台上的视觉理解任务。
- 为四个核心任务提供丰富多样的标注,以对检测和跟踪算法进行压力测试。
- 呈现数据集统计信息,以在城市/无人机场景下实现稳健评估。
- 鼓励开发对遮挡、尺度变化和高空快速运动具有鲁棒性的算法。
提出的方法
- 从无人机拍摄场景组装 263 条视频片段(179,264 帧)和 10,209 张静态图像。
- 对超过 2.5 million 个对象实例进行标注,涵盖 10 个类别,并提供遮挡、截断比等属性。
- 定义四个任务:基于图像的目标检测、基于视频的目标检测、单目标跟踪和多目标跟踪。
- 发布用于训练/验证的真实标签,保留测试标签以防止过拟合,允许可选使用外部数据。
- 提供一个公共评测网站,供跨任务提交与基准测试。
实验结果
研究问题
- RQ1在具有多样化视角、尺度和遮挡的无人机拍摄图像上,最先进的检测与跟踪算法表现如何?
- RQ2在应用于航空无人机数据时,现有方法面临的挑战与局限性是什么,基准测试如何引导改进?
- RQ3一个统一的面向无人机的基准测试能否推动在空中环境中检测与跟踪任务的共同进步?
- RQ4数据集属性(遮挡、截断、视角变化)如何影响四个定义任务的性能?
主要发现
- VisDrone2018 是当时最大的以无人机为中心的基准测试,包含 263 条视频片段、179,264 帧和 10,209 张图像。
- 该数据集包括超过 2.5 million 个注释对象实例,覆盖与无人机应用相关的 10 个类别。
- 确立四个任务:图像中的目标检测、视频中的目标检测、单目标跟踪和多目标跟踪。
- 提供用于训练/验证的真值,而保留测试真值以避免过拟合,并提供用于基准测试的评测网站。
- 该基准强调无人机影像中的遮挡、尺度大幅变化、姿态变化和快速运动等挑战性条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。