[论文解读] Light-Head R-CNN: In Defense of Two-Stage Object Detector
本论文提出了一种轻量头部的两阶段检测器,使用薄特征图和一个便宜的 R-CNN 子网以在保持高速度的同时实现高精度,在 COCO 上超过了许多单阶段和两阶段检测器。
In this paper, we first investigate why typical two-stage methods are not as fast as single-stage, fast detectors like YOLO and SSD. We find that Faster R-CNN and R-FCN perform an intensive computation after or before RoI warping. Faster R-CNN involves two fully connected layers for RoI recognition, while R-FCN produces a large score maps. Thus, the speed of these networks is slow due to the heavy-head design in the architecture. Even if we significantly reduce the base model, the computation cost cannot be largely decreased accordingly. We propose a new two-stage detector, Light-Head R-CNN, to address the shortcoming in current two-stage approaches. In our design, we make the head of network as light as possible, by using a thin feature map and a cheap R-CNN subnet (pooling and single fully-connected layer). Our ResNet-101 based light-head R-CNN outperforms state-of-art object detectors on COCO while keeping time efficiency. More importantly, simply replacing the backbone with a tiny network (e.g, Xception), our Light-Head R-CNN gets 30.7 mmAP at 102 FPS on COCO, significantly outperforming the single-stage, fast detectors like YOLO and SSD on both speed and accuracy. Code will be made publicly available.
研究动机与目标
- Motivate why conventional two-stage detectors lag in speed compared to single-stage detectors.
- Design a lighter head for two-stage detectors to improve speed without sacrificing accuracy.
- Demonstrate that thin feature maps and a simple R-CNN subnetwork can boost efficiency and performance.
- Showcase the flexibility to use small backbones while maintaining competitive accuracy on COCO.
提出的方法
- 用一个通过大核分离卷积产生的薄特征图来实现轻量头两阶段检测器架构。
- 附加一个由单个全连接层(2048 通道)组成的便宜的 R-CNN 子网用于 RoI 分类和回归。
- 在 RoI 池化之前使用薄特征图以减少计算和内存,从而实现高效 RoI 变形。
- 使用大核分离卷积来丰富薄特征图(k=15, C_mid=256/64, C_out=490)在 RoI 池化之前。
- 在薄特征图上应用 RoI 池化(PSRoI/ROI 池化)随后再进行轻量级R-CNN 子网。
- 实验设置 L(ResNet-101 骨干)和设置 S(微型 Xception 风格骨干)以演示速度-精度权衡。
实验结果
研究问题
- RQ1两阶段检测器中更轻的头部是否能够缩小与单阶段检测器在速度上的差距,同时不牺牲精度?
- RQ2薄特征图和一个简单的 RoI 子网是否在从大骨干到微型骨干的范围内提供具有竞争力的性能?
主要发现
- 使用 ResNet-101 骨干,在与大核特征图和轻量级 R-CNN 头相结合时,Light-Head R-CNN 达到 37.7 mmAP。
- 在 COCO test-dev(单尺度)下,Light-Head R-CNN 根据改进而达到 39.5–41.5 mmAP,超过若干快速检测器。
- 使用微型 Xception 风格骨干,Light-Head R-CNN 在 102 FPS 下达到 30.7 mmAP,速度和精度均超越 YOLO/SSD 基线。
- 将 RoI 特征图通道降至 490(10×7×7)同时保持 2048 通道的 FC 头,获得具有显著加速的竞争性 mmAP(约 31.4–35.2)。
- 在薄特征图中加入大核(k=15)可将 mmAP 相对于基线薄图变体提升约 0.7 点。
- 加入多尺度训练和对齐池化(PSRoI/ROI Align)可带来额外的 mmAP 增益(来自 PSAlign 和多尺度最高到约 1.3 点)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。