[论文解读] Feature Pyramid Networks for Object Detection
本文提出了特征金字塔网络(FPNs),在单个卷积神经网络内构建一个快速且具语义强度的多尺度特征金字塔,在提高检测与分割的同时保持单尺度测试的效率。它在 COCO 数据集上使用 Faster R-CNN 及其变体,仅采用一个输入图像尺度就获得了单模型的最先进结果。
Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art single-model results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 5 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.
研究动机与目标
- 在广泛的对象尺度范围内推动鲁棒的目标检测。
- 利用卷积神经网络固有的金字塔状特征层次,在所有尺度上创建高级语义特征。
- 开发一个快速的、端到端可训练的特征金字塔,避免代价高昂的图像金字塔。
提出的方法
- 引入自下而上、自上而下以及横向连接,从骨干特征图(C2–C5)创建多尺度特征金字塔(P2–P5)。
- 对高级语义图进行上采样,并通过 1x1 横向连接和 3x3 精细化融合到相应的低级图。
- 在金字塔的每个层级上附加相同的检测头(在各金字塔层之间共享),用于 RPN 与 Fast R-CNN,使多尺度的候选区域和检测成为可能。
- 基于 RoI 的空间尺度,将其分配到相应的金字塔层级,使用类似网格式多尺度检测器的对数刻度映射。
- 在单张图像尺度上进行端到端训练,避免特征化图像金字塔带来的内存负担。
- 将金字塔扩展到分割候选区域,在每个金字塔层级上添加小型 MLP 头。
实验结果
研究问题
- RQ1在卷积神经网络内部构建的自上而下、基于横向连接的金字塔,是否能够在不付出图像金字塔成本的情况下,在多尺度上提供丰富的语义特征?
- RQ2在所有金字塔层级进行多尺度预测,是否比单尺度基线在区域提议和目标检测上,尤其是对小物体,表现更好?
- RQ3在金字塔层之间共享检测头是否有效,特征共享对训练和推断时间有何影响?
主要发现
| 候选区域 | 特征 | 检测头 | 横向? | 自上而下? | AP@0.5 | AP | AP s | AP m | AP l | |
|---|---|---|---|---|---|---|---|---|---|---|
| (*)来自 He 等人的基线。 | RPN, C4 | C4 | conv5 | 47.3 | 26.3 | - | - | - | ||
| (a)在 conv4 的基线 | RPN, {P_k} | C4 | conv5 | 53.1 | 31.6 | 13.2 | 35.6 | 47.1 | ||
| (b)在 conv5 的基线 | RPN, {P_k} | C5 | 2 fc | 51.7 | 28.0 | 9.6 | 31.9 | 43.1 | ||
| (c)FPN | RPN, {P_k} | {P_k} | ✓ | ✓ | 56.9 | 33.9 | 17.8 | 37.7 | 45.8 | |
| (d)自下而上金字塔 | RPN, {P_k} | {P_k} | ✓ | 44.9 | 24.9 | 10.9 | 24.4 | 38.5 | ||
| (e)自上而下金字塔,且无横向连接 | RPN, {P_k} | {P_k} | 无 | ✓ | 54.0 | 31.3 | 13.3 | 35.2 | 45.3 | |
| (f)仅保留最细层 | RPN, {P_k} | P2 | 2 fc | ✓ | ✓ | 56.3 | 33.4 | 17.3 | 37.3 | 45.6 |
- FPN 相对于单尺度基线显著提升区域提议召回率和检测指标(例如 AR 1k 提升 8.0 点;COCO 风格的 AP 提升 2.3 点;PASCAL 风格的 AP 提升 3.8 点,超过一个强的单尺度 Faster R-CNN 基线)。
- 采用自上而下的增强并结合横向连接,可获得更高质量的多尺度特征,并优于没有这些连接的变体。
- 与 RPN 和 Fast/Faster R-CNN 集成时,FPN 在 COCO 的 minival/test-dev 上取得有竞争力甚至更优的 AP,超越当时最先进的单模型结果且无需图像金字塔。
- 该方法以中等速度运行,在 GPU 上对检测任务实现大约 6 FPS,使用轻量级、端到端可训练的金字塔。
- 基于 FPN 的系统在小物体上表现出显著提升(小物体的 AP 显著提高),同时在整体速度方面维持或优于单尺度基线。
- 该框架可泛化到分割候选区域,提升候选质量与相较于基于图像金字塔的方法的速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。