[论文解读] Scale-Aware Trident Networks for Object Detection
TridentNet 通过并行分支引入尺度特定的特征图,权重共享但感受野不同,使用尺度感知采样进行训练,在不增加参数的情况下实现最先进的单模型 COCO 结果(如取决于设置的 46.8–48.4 AP)。
Scale variation is one of the key challenges in object detection. In this work, we first present a controlled experiment to investigate the effect of receptive fields for scale variation in object detection. Based on the findings from the exploration experiments, we propose a novel Trident Network (TridentNet) aiming to generate scale-specific feature maps with a uniform representational power. We construct a parallel multi-branch architecture in which each branch shares the same transformation parameters but with different receptive fields. Then, we adopt a scale-aware training scheme to specialize each branch by sampling object instances of proper scales for training. As a bonus, a fast approximation version of TridentNet could achieve significant improvements without any additional parameters and computational cost compared with the vanilla detector. On the COCO dataset, our TridentNet with ResNet-101 backbone achieves state-of-the-art single-model results of 48.4 mAP. Codes are available at https://git.io/fj5vR.
研究动机与目标
- 研究感受野大小如何在尺度变化下影响检测。
- 提出一种具有共享权重的多分支 Trident 架构,以创建尺度特异特征。
- 开发一个尺度感知训练方案,使每个分支对物体尺度进行专门化。
- 提供一个快速推理变体,在没有额外参数的情况下保持性能。
- 在 COCO 上将 TridentNet 与最先进的检测器进行对比评估,并分析消融实验。
提出的方法
- 通过用共享参数但使用不同膨胀率的 Trident 块替换某些骨干网络块来构建 TridentNets。
- 在分支之间使用权重共享,使总参数量等于基线。
- 通过选择尺度落在每个分支预定义有效范围内的 RoI 来应用尺度感知训练。
- 在推理阶段,通过 NMS 将各分支的输出融合以产生最终检测;包括使用单个主分支的快速 TridentNet Fast 变体。
- 提供一种快速近似,在推理时使用中间分支同时保持性能。
实验结果
研究问题
- RQ1改变感受野如何影响不同尺度物体的检测性能?
- RQ2多分支、尺度感知网络是否能够在不增加参数的情况下,在各尺度间实现统一的表征能力?
- RQ3相较于单分支基线,权重共享和尺度感知训练对总体检测精度有何影响?
主要发现
| 骨干网络 | 方法 | AP | AP50 | AP75 | APs | APm | APl |
|---|---|---|---|---|---|---|---|
| ResNet-101 | TridentNet | 40.6 | 61.8 | 23.0 | 45.5 | 55.9 | |
| ResNet-101-Deformable | TridentNet | 41.8 | 62.9 | 23.6 | 46.8 | 57.1 | |
| ResNet-101-Deformable | TridentNet* | 46.8 | 67.6 | 51.5 | 28.0 | 51.2 | 60.5 |
| ResNet-101-Deformable | TridentNet* + Image Pyramid | 48.4 | 69.7 | 53.5 | 31.8 | 51.3 | 60.3 |
- 增大感受野有利于大物体,但可能损害小物体,推动尺度感知、分支特定处理。
- 三分支 TridentNet,采用共享权重和尺度感知训练,AP 相比基线有所提升(例如在 ResNet-101 的 COCO minival 上从 37.9 提升至 40.6)。
- 在可变形骨干网络下,TridentNet 获得更高的 AP(例如 41.8 对比基线 39.9)。
- 三分支 TridentNet 在 COCO test-dev 上未使用图像金字塔可达到 46.6–46.8 AP,使用图像金字塔可达到 48.4 AP(单模型,ResNet-101-Deformable,TridentNet*)。
- 一个快速推理变体(TridentNet Fast)使用主分支即可实现几乎相同的性能且无额外参数或计算。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。