[论文解读] DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
DetectoRS 将 Recursive Feature Pyramid 与 Switchable Atrous Convolution 结合起来,以增强骨干网络,从而在 COCO 数据集的对象检测、实例分割和全景分割方面达到最先进的性能。
Many modern object detectors demonstrate outstanding performances by using the mechanism of looking and thinking twice. In this paper, we explore this mechanism in the backbone design for object detection. At the macro level, we propose Recursive Feature Pyramid, which incorporates extra feedback connections from Feature Pyramid Networks into the bottom-up backbone layers. At the micro level, we propose Switchable Atrous Convolution, which convolves the features with different atrous rates and gathers the results using switch functions. Combining them results in DetectoRS, which significantly improves the performances of object detection. On COCO test-dev, DetectoRS achieves state-of-the-art 55.7% box AP for object detection, 48.5% mask AP for instance segmentation, and 50.0% PQ for panoptic segmentation. The code is made publicly available.
研究动机与目标
- 为对象检测设计并实现一个“经过深思熟虑、会看两遍”的骨干网络。
- 开发在特征金字塔上的宏观层面递归,以丰富多尺度表示。
- 引入微观层面的 Switchable Atrous Convolution,使感受野在各尺度间自适应。
- 在 COCO 上展示对检测、分割和全景分割任务的性能提升。
- 提供与预训练骨干网络兼容的即插即用方法。
提出的方法
- 提出 Recursive Feature Pyramid (RFP),将自顶向下的 FPN 层的反馈引入自底向上的骨干网络,以创建多次前馈的骨干表示。
- 引入 Switchable Atrous Convolution (SAC),对特征使用多种空洞率进行卷积,并通过基于位置的开关融合输出。
- 使用 ASPP 作为连接模块,将 RFP 特征转换并与骨干网络融合。
- 应用一个融合模块,在展开的 RFP 步骤之间更新和混合特征。
- 用 SAC 替换骨干网络中的 3x3 卷积,以便在带权重锁定方案的预训练网络中实现简单迁移。
- 在 HTC 中实验性地将 RFP 与 SAC 集成,以评估在 COCO 上的增益。
实验结果
研究问题
- RQ1骨干网络中的反馈(RFP)如何改进目标检测的多尺度表示?
- RQ2在不从头重新训练的情况下,SAC 是否可以改进跨对象尺度的检测?
- RQ3在标准检测器上,宏观层面的(RFP)与微观层面的(SAC)设计的综合收益是什么?
- RQ4RFP 与 SAC 如何影响 COCO 的边界框检测、实例分割和全景分割?
主要发现
| 方法 | 骨干网络 | TTA | AP_bbox | AP_50 | AP_75 | AP_S | AP_M | AP_L | 备注 |
|---|---|---|---|---|---|---|---|---|---|
| HTC | ResNet-50 | 42.0 | 60.8 | 45.5 | 23.7 | 45.5 | 56.4 | Baseline HTC on COCO val2017 | |
| RFP | ResNet-50 | 46.2 | 65.1 | 50.2 | 27.9 | 50.3 | 60.3 | RFP improves baseline by ~4.2 AP bbox | |
| RFP + sharing | ResNet-50 | 45.4 | 64.1 | 49.4 | 26.5 | 49.0 | 60.0 | RFP with shared blocks | |
| RFP - aspp | ResNet-50 | 45.7 | 64.2 | 49.6 | 26.7 | 49.3 | 60.5 | RFP without ASPP | |
| RFP - fusion | ResNet-50 | 45.9 | 64.7 | 50.0 | 27.0 | 50.1 | 60.1 | RFP without fusion variant | |
| RFP + 3X | ResNet-50 | 47.5 | 66.3 | 51.8 | 29.0 | 51.6 | 61.9 | RFP with 3 unrolls | |
| SAC | ResNet-50 | 46.3 | 65.8 | 50.2 | 27.8 | 50.6 | 62.4 | Switchable Atrous Convolution | |
| SAC - DCN | ResNet-50 | 45.3 | 65.0 | 49.3 | 27.5 | 48.7 | 60.6 | SAC without deformable convs | |
| SAC - DCN - global | ResNet-50 | 44.3 | 63.7 | 48.2 | 25.7 | 48.0 | 59.6 | SAC with global context only | |
| SAC - DCN - locking | ResNet-50 | 44.7 | 64.4 | 48.7 | 26.0 | 48.7 | 59.0 | Locks weights for SAC | |
| SAC - DCN + DS | ResNet-50 | 45.1 | 64.6 | 49.0 | 26.3 | 49.3 | 60.1 | Dual-switch variant |
- 在 ResNet-50 基线下,RFP 将 box AP 从 42.0 提升至 46.2。
- 在 ResNet-50 下,SAC 将 box AP 提升至 46.3,显示出强烈的微观层面增益。
- 将 RFP + SAC 结合的 DetectoRS,使用 ResNeXt-101-64x4d,在 COCO test-dev 上达到 55.7% 的 box AP 和 48.5% 的 mask AP。
- DetectoRS 在 COCO test-dev 上以 ResNeXt-101-64x4d 达到 55.7% box AP、48.5% mask AP 的最新水平,并在全景分割上达到 50.0 PQ。
- RFP + SAC 还带来更快的收敛和相比 HTC 基线显著的训练损失改善。
- 可视化结果显示学习到的开关与对象尺度对齐,且 SAC 增大对大型对象的感受野。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。