[论文解读] Receptive Field Block Net for Accurate and Fast Object Detection
该论文提出 Receptive Field Block (RFB) 来提升基于轻量化 SSD 的检测器,在保持实时速度的同时实现与深层骨干网络相媲美的高精度。RFB Net 在 VOC 和 COCO 上优于若干实时检测器。
Current top-performing object detectors depend on deep CNN backbones, such as ResNet-101 and Inception, benefiting from their powerful feature representations but suffering from high computational costs. Conversely, some lightweight model based detectors fulfil real time processing, while their accuracies are often criticized. In this paper, we explore an alternative to build a fast and accurate detector by strengthening lightweight features using a hand-crafted mechanism. Inspired by the structure of Receptive Fields (RFs) in human visual systems, we propose a novel RF Block (RFB) module, which takes the relationship between the size and eccentricity of RFs into account, to enhance the feature discriminability and robustness. We further assemble RFB to the top of SSD, constructing the RFB Net detector. To evaluate its effectiveness, experiments are conducted on two major benchmarks and the results show that RFB Net is able to reach the performance of advanced very deep detectors while keeping the real-time speed. Code is available at https://github.com/ruinmessi/RFBNet.
研究动机与目标
- 在不求助于极深骨干网络的情况下,推动具高精度的实时目标检测。
- 利用神经科学启发的感受野特性,提升轻量级网络的特征判别能力。
- 通过在 SSD 顶部插入 RFB 模块,开发一个实用的检测器,并在 VOC 和 COCO 上评估。
提出的方法
- 提出 Receptive Field Block (RFB),包含具有不同核大小的多分支卷积,以模拟多种 RF 尺寸。
- 使用瓶颈结构和因式分解卷积(1x1、3x3,以及 1xN / Nx1 变体)并结合 ResNet/Inception 风格的残差连接。
- 附加扩张池化/卷积层以建模与偏心相关的 RF 扩展,拼接各分支以形成增强特征。
- 在 VGG16 主干上用 RFB(以及用于更小 RF 的 RFB-s 变体)替换顶部 SSD 层,形成 RFB Net。
- 使用 SSD 风格的损失、数据增强和困难负样本挖掘进行训练;采用暖起步学习率策略和标准训练计划。
- 对于 COCO,探索小型架构改动(上采样 conv7、7x7 分支)以在速度影响较小的前提下提升准确性。
实验结果
研究问题
- RQ1一个基于轻量骨干的 RF 启发式模块是否能够在实时速度下达到有竞争力的精度?
- RQ2模拟感受野的尺寸-偏心关系是否能提升检测的鲁棒性和判别能力?
- RQ3RFB Net 在 VOC 和 COCO 上与最先进的一阶段/两阶段检测器相比如何?
主要发现
- RFB Net300(VGG 主干)在 VOC2007 上达到 80.5% mAP,实时速度(83 FPS)。
- RFB Net512(VGG)在 VOC2007 上达到 82.2% mAP,速度为 38 FPS,优于许多实时检测器甚至若干两阶段检测器。
- 在 COCO 上,RFB Net300 在 test-dev 上达到 30.3% mAP,在 0.5:0.95 范围内为 49.3%,超越 SSD300*,并以更轻的骨干接近 R-FCN 的性能。
- 在 VOC2007 和 COCO minival 上,RFB 模块在 SSD 上的效果优于 Inception、ASPP 和 Deformable CNN 块。
- 带有 RFB Net512-E(增强型 RFB)的 COCO 达到 34.4% mAP,速度提升有限,凸显了速度-精度折中。
- 将 RFB 与 MobileNet-SSD 结合证实了在轻量骨干上的泛化能力和准确性提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。