[论文解读] Decoupled Classification Refinement: Hard False Positive Suppression for Object Detection
本文提出 Decoupled Classification Refinement (DCR),一种将分类与定位解耦以抑制高信心但错误的检测的模块,在 VOC 和 COCO 基准上提升 mAP。
In this paper, we analyze failure cases of state-of-the-art detectors and observe that most hard false positives result from classification instead of localization and they have a large negative impact on the performance of object detectors. We conjecture there are three factors: (1) Shared feature representation is not optimal due to the mismatched goals of feature learning for classification and localization; (2) multi-task learning helps, yet optimization of the multi-task loss may result in sub-optimal for individual tasks; (3) large receptive field for different scales leads to redundant context information for small objects. We demonstrate the potential of detector classification power by a simple, effective, and widely-applicable Decoupled Classification Refinement (DCR) network. In particular, DCR places a separate classification network in parallel with the localization network (base detector). With ROI Pooling placed on the early stage of the classification network, we enforce an adaptive receptive field in DCR. During training, DCR samples hard false positives from the base detector and trains a strong classifier to refine classification results. During testing, DCR refines all boxes from the base detector. Experiments show competitive results on PASCAL VOC and COCO without any bells and whistles. Our codes are available at: https://github.com/bowenc0221/Decoupled-Classification-Refinement.
研究动机与目标
- 分析最先进的基于区域的检测器的失败模式,找出是在分类而非定位导致硬性误报的位置。
- 提出一个解耦架构,在不改变基础检测器定位的前提下对分类进行精细化。
- 演示解耦分类在 Faster RCNN 的变体和常用基准测试上带来稳定的性能提升。
提出的方法
- 提出 Decoupled Classification Refinement (DCR),在基础检测器并行放置一个独立的分类网络。
- 通过在早期阶段对 DCR 应用 ROI 处理来实现自适应感受野,使其聚焦对象尺度的上下文。
- 通过从基础检测器抽取 hard false positives (高置信度错误) 来训练 DCR,并训练一个强分类器来纠正它们。
- 开发两个 DCR 变体:DCR V1(朴素、解耦、分离训练)和 DCR V2(更快、端到端、共享主干和 top-sampling 策略)。
- 在 DCR V2 中部分共享主干特征,以在速度和精度之间取得平衡,并在网络的更早阶段放置 ROI 池化,以实现自适应感受野。
- 在训练中,优化一个综合损失:L = L_RPN + L_RCNN + L_DCRV2 (for DCR V2)。
- 提供一种推理技巧(top-sampling)通过仅处理最高分的检测来降低 DCRV2 的运行时间。
实验结果
研究问题
- RQ1将分类与定位解耦是否可以减少基于区域的检测器中的硬性误报?
- RQ2自适应感受野和部分特征共享是否能提升检测性能和速度?
- RQ3在标准基准测试中,DCR V1 与 DCR V2 在精度与效率方面的比较如何?
主要发现
- DCR 显著减少硬性误报,并在 PASCAL VOC 2007 的强基线上提升 mAP(约 2.7% 的增益)。
- 在 ResNet-101 主干下,DCR 在 PASCAL VOC 2007 的 mAP 为 84.2%,在 PASCAL VOC 2012 的 mAP 为 81.2%。
- 在 COCO test-dev 上,DCR 达到 43.5% 的 mAP。
- 将分类与定位解耦并使用自适应感受野的做法,优于完全共享特征的架构(消融在某些设置下显示最高可达 4.6% 的 mAP 增益)。
- DCR V2 结合 top-sampling 实现了有利的速度-精度权衡,接近 Faster RCNN 基线的同时提升准确度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。