QUICK REVIEW

[论文解读] AMRNet: Chips Augmentation in Aerial Images Object Detection

Zhiwei Wei, Chenzhen Duan|arXiv (Cornell University)|Sep 15, 2020

Advanced Neural Network Applications被引用 25

一句话总结

AMRNet 提出三种高效、无需推理的图像增强技术——自适应裁剪、马赛克增强和掩码重采样——以提升航拍图像中的目标检测性能。通过动态调整图像块大小、将稀疏子区域合并为复杂图像，以及对罕见类别目标掩码进行重采样，AMRNet 在 VisDrone 上实现 30.8 的 SOTA AP，在 UAVDT 上实现 18.2 的 SOTA AP，所有方法均独立提升性能且不增加推理时间。

ABSTRACT

Object detection in aerial images is a challenging task due to the following reasons: (1) objects are small and dense relative to images; (2) the object scale varies in a wide range; (3) the number of object in different classes is imbalanced. Many current methods adopt cropping idea: splitting high resolution images into serials subregions (chips) and detecting on them. However, some problems such as scale variation, object sparsity, and class imbalance exist in the process of training network with chips. In this work, three augmentation methods are introduced to relieve these problems. Specifically, we propose a scale adaptive module, which dynamically adjusts chip size to balance object scale, narrowing scale variation in training. In addtion, we introduce mosaic to augment datasets, relieving object sparity problem. To balance catgory, we present mask resampling to paste object in chips with panoramic segmentation. Our model achieves state-of-the-art perfomance on two popular aerial image datasets of VisDrone and UAVDT. Remarkably, three methods can be independently applied to detectiors, increasing performance steady without the sacrifice of inference efficiency.

研究动机与目标

通过基于图像块的训练方法，解决航拍图像目标检测中的尺度变化、目标稀疏性和类别不平衡问题。
提升检测器在小目标、密集目标和类别不平衡目标上的泛化能力与性能表现。
开发轻量化、兼容推理的增强方法，可无缝集成至现有基于图像块的目标检测器中。
在 VisDrone 和 UAVDT 数据集上，独立且联合验证每种增强技术的有效性。

提出的方法

引入自适应裁剪模块，根据目标的平均尺度动态调整图像块大小，减少图像块间的尺度差异。
通过将多个稀疏子区域合并为单张复杂图像，应用马赛克增强，提升前景目标密度与多样性。
提出掩码重采样方法，利用全景分割技术粘贴实例掩码，保留罕见类别目标的空间与语义上下文信息。
使用尺度阈值参数（VisDrone 为 100，UAVDT 为 60）指导自适应裁剪，确保目标与图像块的最优覆盖。
将马赛克增强中目标的尺度限制在 50 和 30 像素以内，以保持真实感并避免过拟合。
选择性地对除汽车外的所有类别应用掩码重采样，聚焦于罕见类别以平衡类别分布。

实验结果

研究问题

RQ1自适应裁剪能否有效减少图像块间的尺度差异，并提升检测器在不同尺寸目标上的鲁棒性？
RQ2马赛克增强是否能通过将子区域合并为更丰富的训练样本，有效缓解图像块中的目标稀疏问题？
RQ3基于实例级分割的掩码重采样能否在类别不平衡的数据集中提升罕见目标类别的检测性能？
RQ4这三种增强方法在单独使用和联合使用时，对航拍基准数据集的检测精度提升程度如何？
RQ5这些方法是否可在不增加推理时间的前提下应用，从而实现即插即用式集成至现有检测器？

主要发现

AMRNet 在 VisDrone 数据集上使用 ResNet-50 模型实现 30.8 的 SOTA AP，超越先前方法。
在 UAVDT 上，模型达到 18.2 的 AP，仅使用马赛克增强即较基线提升 1.6 分，表现显著。
当与多尺度推理结合时，自适应裁剪使多尺度测试性能提升 1.7 分，表明其在尺度对齐方面具有显著效果。
即使仅对 10,000 张图像进行增强，马赛克增强仍带来 0.3 分的 AP 提升，表明其在稀疏图像块中具有强大有效性。
掩码重采样与马赛克增强的增益存在重叠（0.2 AP），表明二者均能有效缓解罕见类别目标的欠采样问题。
消融实验验证了三种方法均能独立提升性能，其中自适应裁剪与马赛克增强对 AP 提升贡献最大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。