Skip to main content
QUICK REVIEW

[论文解读] R-FCN: Object Detection via Region-based Fully Convolutional Networks

Jifeng Dai, Yi Li|arXiv (Cornell University)|May 20, 2016
Advanced Neural Network Applications被引用 3,435
一句话总结

R-FCN 引入基于区域的、全卷积的目标检测,具针对位置的分数映射和位置敏感的 RoI 池化层,在速度上比 Faster R-CNN 更快,同时保持竞争力的准确性。它有效地将强大的图像分类器(如 ResNets)转换为快速的端到端检测器。

ABSTRACT

We present region-based, fully convolutional networks for accurate and efficient object detection. In contrast to previous region-based detectors such as Fast/Faster R-CNN that apply a costly per-region subnetwork hundreds of times, our region-based detector is fully convolutional with almost all computation shared on the entire image. To achieve this goal, we propose position-sensitive score maps to address a dilemma between translation-invariance in image classification and translation-variance in object detection. Our method can thus naturally adopt fully convolutional image classifier backbones, such as the latest Residual Networks (ResNets), for object detection. We show competitive results on the PASCAL VOC datasets (e.g., 83.6% mAP on the 2007 set) with the 101-layer ResNet. Meanwhile, our result is achieved at a test-time speed of 170ms per image, 2.5-20x faster than the Faster R-CNN counterpart. Code is made publicly available at: https://github.com/daijifeng001/r-fcn

研究动机与目标

  • 动机并解决目标检测中的平移不变性与平移变化性之间的困境。
  • 开发一个区域化检测器,在图像上几乎共享所有计算。
  • 引入位置敏感的分数图和位置敏感的 RoI 池化层,以在 RoI 之后不使用卷积层的情况下编码空间信息。
  • 展示端到端可训练性以及与 ResNet 骨干网的兼容性,以实现高效检测。

提出的方法

  • 构建一个区域基于的全卷积网络(R-FCN),在整幅图像上共享卷积特征图。
  • 为 C 个目标类别(+1 背景)生成 k^2 个位置敏感分数图。
  • 使用位置敏感 RoI 池化层,使每个 RoI 的网格从相应的分数图池化,从而在不需要 RoI 池化后权重层的情况下实现空间投票。
  • 端到端训练,使用联合分类和边界框回归损失,如有需要可采用在线困难样本挖掘(OHEM)。
  • 调整骨干网络步幅并使用空洞卷积以提升 RoI 分辨率,同时与 RPN 共享计算。
  • 在 PASCAL VOC 和 MS COCO 上与 Faster R-CNN 及其他全卷积策略进行比较。

实验结果

研究问题

  • RQ1一个全卷积、基于区域的检测器在大幅共享图像大部分计算的同时,是否也能达到有竞争力的准确度?
  • RQ2通过位置敏感分数图组编码位置信息是否在不增加每个RoI计算量的情况下改善定位?
  • RQ3在标准基准测试中,使用如 ResNet-101 这样的现代骨干网时,R-FCN 相较于 Faster R-CNN 的表现如何?
  • RQ4使用位置敏感 RoI 池化与传统 RoI 池化相比,在速度与准确性上有哪些权衡?
  • RQ5在共享特征图和与 RPN 集成的情况下,端到端训练是否可行且高效?

主要发现

训练数据mAP测试时间(秒/图像)
Faster R-CNN 07+1276.40.42
Faster R-CNN+++ 07+12+CO85.63.36
R-FCN 07+1279.50.17
R-FCN ms train 07+1280.50.17
R-FCN ms train 07+12+COCO83.60.17
  • R-FCN 与 ResNet-101 在 VOC 2007 测试上达到 83.6% mAP,在 VOC 2012 测试上达到 82.0% mAP。
  • 使用 ResNet-101,在 K40 GPU 上每张图像 170 ms,相对于同 backbone 的 Faster R-CNN 快上 2.5–20 倍。
  • 位置敏感分数图和 RoI 池化使得端到端训练成为可能,在 RoI 池化后不需要额外的全连接层。
  • R-FCN 的性能与 Faster R-CNN 竞争,在 VOC07 上使用 300 个 RoI 达到 76.6% mAP,且每个 RoI 的成本显著较低。
  • 在 MS COCO 上,R-FCN 接近使用 ResNet-101 的 Faster R-CNN,在多尺度测试下达到 53.2 AP(IoU 0.5:0.95),同时速度更快。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。