Skip to main content
QUICK REVIEW

[论文解读] Dynamic Anchor Learning for Arbitrary-Oriented Object Detection

Qi Ming, Zhiqiang Zhou|arXiv (Cornell University)|Dec 8, 2020
Advanced Image and Video Retrieval Techniques参考文献 47被引用 24
一句话总结

本文提出动态锚点学习(Dynamic Anchor Learning, DAL),一种用于任意方向目标检测的新型标签分配方法,通过学习到的匹配度度量替代基于IoU的锚点匹配。通过联合评估空间对齐、特征对齐和回归不确定性,DAL 实现了高质量锚点的动态选择,在仅使用少量水平锚点的情况下显著提升了检测精度,在 DOTA(76.95% mAP)和 HRSC2016(89.77% mAP)上达到当前最优性能,同时在通用水平目标检测任务中也保持高效。

ABSTRACT

Arbitrary-oriented objects widely appear in natural scenes, aerial photographs, remote sensing images, etc., thus arbitrary-oriented object detection has received considerable attention. Many current rotation detectors use plenty of anchors with different orientations to achieve spatial alignment with ground truth boxes, then Intersection-over-Union (IoU) is applied to sample the positive and negative candidates for training. However, we observe that the selected positive anchors cannot always ensure accurate detections after regression, while some negative samples can achieve accurate localization. It indicates that the quality assessment of anchors through IoU is not appropriate, and this further lead to inconsistency between classification confidence and localization accuracy. In this paper, we propose a dynamic anchor learning (DAL) method, which utilizes the newly defined matching degree to comprehensively evaluate the localization potential of the anchors and carry out a more efficient label assignment process. In this way, the detector can dynamically select high-quality anchors to achieve accurate object detection, and the divergence between classification and regression will be alleviated. With the newly introduced DAL, we achieve superior detection performance for arbitrary-oriented objects with only a few horizontal preset anchors. Experimental results on three remote sensing datasets HRSC2016, DOTA, UCAS-AOD as well as a scene text dataset ICDAR 2015 show that our method achieves substantial improvement compared with the baseline model. Besides, our approach is also universal for object detection using horizontal bound box. The code and models are available at https://github.com/ming71/DAL.

研究动机与目标

  • 解决旋转目标检测中分类置信度与定位精度不一致的问题。
  • 克服基于IoU的标签分配方法在识别具有强定位潜力的高质量负样本锚点时的局限性。
  • 开发一种动态自适应的标签分配机制,基于综合匹配标准选择高质量锚点。
  • 通过仅使用少量水平锚点提升选择质量,减少对大量旋转锚点的依赖。
  • 通过扩展至标准水平边界框检测,证明方法的通用性。

提出的方法

  • 提出一种新的匹配度度量,基于空间对齐、特征对齐能力及回归不确定性评估锚点。
  • 引入基于匹配度的动态锚点选择机制,替代固定IoU阈值的正负样本分配方式。
  • 设计一种匹配敏感损失函数,使分类置信度与实际定位性能保持一致。
  • 采用轻量化、可微分的公式,将匹配度度量无缝集成至训练流程中,无需改变网络架构。
  • 每个特征位置仅使用三个水平锚点,显著降低锚点复杂度,同时保持高性能。
  • 在多个数据集和检测框架上应用该方法,验证其在旋转与水平目标检测任务中的泛化能力。

实验结果

研究问题

  • RQ1基于IoU的标签分配在旋转目标检测中能否可靠识别具有高定位潜力的锚点?
  • RQ2分类置信度与定位精度之间的不匹配是否源于锚点质量评估的缺陷?
  • RQ3能否通过结合空间、特征和回归不确定性的统一度量,提升任意方向检测中的标签分配性能?
  • RQ4是否可通过动态选择机制,仅使用少量水平锚点实现高质量检测,而非依赖大量旋转锚点?
  • RQ5所提方法是否在旋转与标准水平目标检测中均具有通用适用性?

主要发现

  • 在 DOTA 数据集上,该方法在集成 S2A-Net 的情况下达到 76.95% mAP,较之前最先进方法提升 2.83%。
  • 在 HRSC2016 数据集上,使用 ResNet-101 时 mAP 达到 89.77%,使用 ResNet-50 时为 88.6%(输入尺寸 416×416),优于使用大量旋转锚点的模型。
  • 在 DOTA 上,mAP 相较基线提升 3%,在 UCAS-AOD 上提升 2.3%,在 HRSC2016 上 AP75 显著提升 2.5%。
  • 在 ICDAR 2015 上,F-measure 从 77.5% 提升至 81.5%(多尺度测试下达 82.4%),表明其在场景文本检测中具有强大泛化能力。
  • 在 RTX 2080 Ti 上,输入尺寸为 416×416 时,推理速度达 34 FPS,展现出高精度与高效率的平衡。
  • 该方法可泛化至标准水平目标检测,在 ICDAR 2013、NWPU VHR-10 和 VOC2007 上均实现一致性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。