[论文解读] Revisiting Feature Alignment for One-stage Object Detection
本文提出 RoIConv,以在单阶段检测器中使特征与边框对齐,从而实现使用学习锚点的 Fully Convolutional AlignDet,在不牺牲速度的情况下达到 COCO 的最新结果。
Recently, one-stage object detectors gain much attention due to their simplicity in practice. Its fully convolutional nature greatly reduces the difficulty of training and deployment compared with two-stage detectors which require NMS and sorting for the proposal stage. However, a fundamental issue lies in all one-stage detectors is the misalignment between anchor boxes and convolutional features, which significantly hinders the performance of one-stage detectors. In this work, we first reveal the deep connection between the widely used im2col operator and the RoIAlign operator. Guided by this illuminating observation, we propose a RoIConv operator which aligns the features and its corresponding anchors in one-stage detection in a principled way. We then design a fully convolutional AlignDet architecture which combines the flexibility of learned anchors and the preciseness of aligned features. Specifically, our AlignDet achieves a state-of-the-art mAP of 44.1 on the COCO test-dev with ResNeXt-101 backbone.
研究动机与目标
- 识别单阶段检测器中锚框与卷积特征之间的错位。
- 提出一个有原则的特征对齐方法来弥合这一差距。
- 开发一个充分卷积的检测器,利用带有精确对齐的学习锚点。
- 在 COCO 上展示最先进的性能,同时保持最小化的锚点设计。
提出的方法
- 揭示 im2col 与 RoIAlign 之间的联系,以为新的 RoIConv 运算符提供动机。
- 定义 RoIConv,使用锚点诱导的偏移在所有位置将特征与锚点对齐。
- 构建一个带有 Dense Proposal Module (DPM) 和 Align ed Detection Module (ADM) 的 Fully Convolutional AlignDet。
- 将 RoIConv 集成到 ADM 中,以实现单阶段检测器中的精确、即插即用的对齐。
- 进行消融实验,将 RoIConv 与普通卷积、变形卷积和锚点引导的变形卷积进行对比。
实验结果
研究问题
- RQ1锚点与骨干特征之间的显式特征对齐是否可以在不牺牲速度的前提下提升单阶段检测器?
- RQ2RoIConv 是否提供超越多尺度特征的有原则性、位置感知的对齐?
- RQ3学习到的锚点如何与对齐交互以影响 COCO 上的检测精度?
主要发现
- RoIConv 提供有效且高效的特征对齐,使单尺度 RetinaNet 提升 5.0 AP。
- AlignDet 与 ADM 实现 37.9 AP (ResNet-50) 和 39.8 AP (ResNet-101) 使用 1 个锚点,超越使用多锚点的 RetinaNet。
- 在 COCO minival 上,使用 ResNet-101 FPN 与 1 个锚点的 AlignDet 达到 39.8 AP 和 52.8 APl,超越 RetinaNet 基线。
- 与 RetinaNet 相比,AlignDet 在 minival 上对 ResNet 主干提高 AP 5.5–5.3 点。
- RoIConv 设计采用更大卷积核和更高输出通道可获得更高 AP,7x7 和 1024 通道达到显著提升。
- 在 COCO test-dev 上,使用 ResNeXt-101-FPN 主干的 AlignDet 达到 44.1 AP,超越 RetinaNet 3.3 AP,同时保持速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。