[论文解读] Single-Shot Refinement Neural Network for Object Detection
RefineDet 提出在单阶段检测器内实现两阶段式的 refinement,通过 Anchor Refinement Module (ARM) 和 Object Detection Module (ODM),并通过 Transfer Connection Blocks 连接,以在高效运行的同时实现最先进的准确度。
For object detection, the two-stage approach (e.g., Faster R-CNN) has been achieving the highest accuracy, whereas the one-stage approach (e.g., SSD) has the advantage of high efficiency. To inherit the merits of both while overcoming their disadvantages, in this paper, we propose a novel single-shot based detector, called RefineDet, that achieves better accuracy than two-stage methods and maintains comparable efficiency of one-stage methods. RefineDet consists of two inter-connected modules, namely, the anchor refinement module and the object detection module. Specifically, the former aims to (1) filter out negative anchors to reduce search space for the classifier, and (2) coarsely adjust the locations and sizes of anchors to provide better initialization for the subsequent regressor. The latter module takes the refined anchors as the input from the former to further improve the regression and predict multi-class label. Meanwhile, we design a transfer connection block to transfer the features in the anchor refinement module to predict locations, sizes and class labels of objects in the object detection module. The multi-task loss function enables us to train the whole network in an end-to-end way. Extensive experiments on PASCAL VOC 2007, PASCAL VOC 2012, and MS COCO demonstrate that RefineDet achieves state-of-the-art detection accuracy with high efficiency. Code is available at https://github.com/sfzhang15/RefineDet
研究动机与目标
- 旨在将两阶段检测器的准确性与单阶段检测器的速度结合起来。
- 引入一个两模块的单 shot 框架(ARM 和 ODM),按顺序对锚点进行 refine 再进行对象检测。
- 通过负锚框过滤和两步回归来解决类别不平衡和小目标准确度问题。
- 展示端到端可训练性以及在 PASCAL VOC 2007/2012 与 MS COCO 上的 state-of-the-art 性能。
提出的方法
- 提出 RefineDet,由 Anchor Refinement Module (ARM) 和 Object Detection Module (ODM) 组成,并通过 Transfer Connection Blocks (TCB) 连接。
- ARM 过滤负锚框并粗略 refine 锚点的位置/大小,以更好地初始化回归器。
- ODM 使用来自 ARM 的 refined anchors 进行准确分类和精确定位。
- TCB 将 ARM 的特征传递给 ODM 并结合大尺度上下文以提升预测。
- 以多任务损失将 ARM 与 ODM 的目标联合起来,进行端到端训练。
- 使用两步 cascaded 回归:先由 ARM refine 锚点,然后由 ODM 预测最终框和类别标签。
实验结果
研究问题
- RQ1一个两模块、单 shot 检测器是否能够在保持单阶段效率的同时达到或超过两阶段方法的准确性?
- RQ2锚点 refinement 加传输连接块是否能提升定位和分类,相较于标准的一步检测器?
- RQ3负锚框过滤和两步 cascaded regression 对检测性能的影响如何?
- RQ4ARM 与 ODM 的端到端训练是否能在多种 backbone 上实现 VOC 和 MS COCO 的 state-of-the-art 结果?
主要发现
- RefineDet 在 VOC 2007/2012 和 MS COCO 上的 backbone(VGG-16、ResNet-101)实现了最先进或有竞争力的 mAP。
- 两步 cascaded regression(先由 ARM refine 再由 ODM)相比单步回归显著提升了准确性。
- 负锚框过滤降低了训练/推理噪声,并提升了 mAP(消融实验在 VOC 上因过滤带来约 0.5% 的绝对增益)。
- Transfer Connection Blocks (TCB) 使 ARM 到 ODM 的特征传递更加有效、并结合上下文,消融实验中带来最高约 1.1% 的 mAP 提升。
- RefineDet320/512 结合多尺度测试(320+、512+)在 VOC2012 和 VOC2007 上取得顶级结果,RefineDet+ 变体在 MS COCO 上以 320/512 输入达到 state-of-the-art 的 AP。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。