[论文解读] Revisiting RCNN: On Awakening the Classification Power of Faster RCNN
本文提出解耦分类精炼(Decoupled Classification Refinement, DCR),一种通过在基础检测器的高置信度误检样本上训练独立的RCNN风格分类器,以提升Faster R-CNN分类准确率的方法。DCR在不修改Faster R-CNN架构的前提下,显著减少了高分误检样本,从而在PASCAL VOC和COCO数据集上实现了最先进(SOTA)的mAP表现。
Recent region-based object detectors are usually built with separate classification and localization branches on top of shared feature extraction networks. In this paper, we analyze failure cases of state-of-the-art detectors and observe that most hard false positives result from classification instead of localization. We conjecture that: (1) Shared feature representation is not optimal due to the mismatched goals of feature learning for classification and localization; (2) multi-task learning helps, yet optimization of the multi-task loss may result in sub-optimal for individual tasks; (3) large receptive field for different scales leads to redundant context information for small objects.We demonstrate the potential of detector classification power by a simple, effective, and widely-applicable Decoupled Classification Refinement (DCR) network. DCR samples hard false positives from the base classifier in Faster RCNN and trains a RCNN-styled strong classifier. Experiments show new state-of-the-art results on PASCAL VOC and COCO without any bells and whistles.
研究动机与目标
- 探究为何像Faster R-CNN这样的最先进目标检测器在具备强大定位能力和多任务学习的情况下,仍会受到高置信度误检的影响。
- 分析基于区域的检测器中分类失败的根本原因,特别是共享特征学习中分类与定位目标之间的不匹配问题。
- 探究是否通过将分类与定位解耦,并使用专用分类器对分类能力进行精炼,能够充分释放Faster R-CNN类检测器的分类潜力。
- 通过专门针对并抑制高难度误检(即高置信度误检)来提升检测mAP,这些误检对性能的损害尤为显著。
提出的方法
- DCR从基础Faster R-CNN检测器的输出中采样高置信度但错误的检测结果(即高难度误检)作为训练样本。
- 在这些高难度误检样本上训练一个独立的、RCNN风格的深度神经网络,以学习更强、更具判别力的分类器。
- DCR模块与基础Faster R-CNN完全解耦:两个网络之间不共享任何参数。
- DCR分类器在采样的高难度样本上端到端训练,专注于提升对难以分类区域与真实物体之间的判别能力。
- 最终的检测结果结合了Faster R-CNN生成的区域建议与DCR模块提供的精炼分类分数。
- 该方法可即插即用:可应用于任意基于Faster R-CNN的检测器,无需修改主干网络或RPN。
实验结果
研究问题
- RQ1为何高置信度误检在Faster R-CNN中会显著降低mAP,尽管其具备强大的定位能力和多任务学习?
- RQ2在两阶段检测器中,分类与定位之间共享特征表示在多大程度上会损害分类性能?
- RQ3在不修改网络架构的前提下,是否可以通过在高难度误检样本上训练解耦的专用分类器,显著提升检测准确率?
- RQ4DCR模块如何影响对遮挡、尺寸和长宽比等物体特性的敏感度?
- RQ5大感受野对小物体分类有何影响?局部注意力机制能否提升性能?
主要发现
- 若能纠正所有误检,Faster R-CNN在PASCAL VOC 2007上理论上可达到86.8%的mAP,而其实际表现仅为79.8%。
- 仅纠正高于阈值的高置信度误检即可带来3.0%的mAP提升,证明了其对性能的显著影响。
- 在PASCAL VOC 2007测试集上,DCR将高难度误检数量减少了近三倍,显著提升了检测质量。
- DCR模块提升了归一化AP,并降低了对遮挡和尺寸等物体特性的敏感度,表明其具有更好的鲁棒性。
- 在COCO数据集上,DCR在不使用任何额外技巧的情况下实现了SOTA的mAP表现,优于使用相同主干网络的现有方法。
- 尽管在1080 Ti GPU上的推理时间为1.39秒/帧(慢于基线),但该方法带来了显著的准确率增益,未来工作将聚焦于速度优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。