[论文解读] Residual Features and Unified Prediction Network for Single Stage Detection
本文提出RUN(残差特征与统一预测网络),一种单阶段目标检测器,通过结合ResNet与反卷积特征的三路残差模块,增强浅层特征表示,同时统一特征图上的预测头。该方法在PASCAL VOC和MS COCO上达到最先进精度,推理速度优于同类模型,在COCO上比SSD高出2.9% mAP,且在VGG-16上保持实时速度。
Recently, a lot of single stage detectors using multi-scale features have been actively proposed. They are much faster than two stage detectors that use region proposal networks (RPN) without much degradation in the detection performances. However, the feature maps in the lower layers close to the input which are responsible for detecting small objects in a single stage detector have a problem of insufficient representation power because they are too shallow. There is also a structural contradiction that the feature maps have to deliver low-level information to next layers as well as contain high-level abstraction for prediction. In this paper, we propose a method to enrich the representation power of feature maps using Resblock and deconvolution layers. In addition, a unified prediction module is applied to generalize output results and boost earlier layers' representation power for prediction. The proposed method enables more precise prediction, which achieved higher score than SSD on PASCAL VOC and MS COCO. In addition, it maintains the advantage of fast computation of a single stage detector, which requires much less computation than other detectors with similar performance. Code is available at https://github.com/kmlee-snu/run
研究动机与目标
- 解决单阶段检测器中浅层特征图表示能力有限的问题,尤其是对小目标的检测。
- 缓解早期特征图需同时承载低层细节与高层抽象的结构矛盾。
- 在不牺牲推理速度的前提下,提升上下文理解能力并减少冗余检测(如“框中框”问题)。
- 通过跨特征层级的通用化预测,提升浅层特征表示与检测性能。
- 使用轻量级VGG-16主干网络,在计算开销最小化的同时实现高精度,优于更深模型在速度-精度权衡上的表现。
提出的方法
- 引入一种三路残差模块,结合残差连接(ResNet风格)与反卷积上采样,以增强特征图的上下文信息。
- 应用反卷积分支,将高层语义特征回传至低层,提升小目标检测的特征表示能力。
- 将来自各独立特征层的多个预测头统一为单一共享预测模块,以提升特征抽象与泛化能力。
- 利用统一预测模块实现在多尺度特征上的端到端学习,同时保持计算效率。
- 在VGG-16上进行端到端训练,利用残差与反卷积组件稳定梯度并提升特征质量。
- 通过避免使用ResNet-101等重型主干网络,优化推理速度,确保在消费级GPU上实现实时性能。
实验结果
研究问题
- RQ1残差与反卷积模块是否能在不增加计算成本的前提下,提升单阶段检测器浅层特征的表示能力?
- RQ2在特征层级间统一预测头是否能增强特征抽象与检测精度?
- RQ3基于轻量级VGG-16的模型在保持实时推理的前提下,其精度在多大程度上可超越如ResNet-101等更深模型?
- RQ4所提方法在减少SSD类检测器中常见的“框中框”问题方面效果如何?
- RQ5残差模块与统一预测的结合是否能在最小速度损耗下实现PASCAL VOC与MS COCO上的最先进mAP?
主要发现
- RUN3WAY300在MS COCO测试开发集上达到28.0% mAP,比SSD300高出2.9%,尽管慢36%,但仍快于精度相近的ResNet-101模型。
- RUN3WAY512在MS COCO上达到32.4% mAP,比SSD512高出3.6%,且在小目标上的平均精度与召回率在除RetinaNet外的所有方法中最高。
- RUN3WAY512在Titan X Pascal上实现29.8 FPS,证明其在精度提升的同时仍具备实时推理能力。
- 尽管采用更轻量的VGG-16主干网络而非深层网络,RUN仍比SSD300高出2.9% mAP,比SSD512高出3.6% mAP。
- 统一预测模块显著提升了特征抽象能力,减少了冗余检测,并增强了跨尺度的泛化性能。
- RUN在提升特征表示的同时保持了高推理速度,证明其在单阶段检测中有效平衡了精度与推理时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。