[论文解读] Accurate Single Stage Detector Using Recurrent Rolling Convolution
本文提出了一种新型架构——循环滚动卷积(RRC),通过在多尺度特征图上递归聚合上下文特征,实现对边界框预测的深层、上下文感知优化,从而提升单阶段目标检测器的性能。该方法在KITTI基准上取得最先进性能——在汽车检测(hard集)中排名第一,在骑行人检测中排名第一,在行人检测中排名第二,证明了端到端的单阶段检测器可在不依赖更强骨干网络的情况下,超越两阶段方法,在高IoU定位精度方面表现更优。
Most of the recent successful methods in accurate object detection and localization used some variants of R-CNN style two stage Convolutional Neural Networks (CNN) where plausible regions were proposed in the first stage then followed by a second stage for decision refinement. Despite the simplicity of training and the efficiency in deployment, the single stage detection methods have not been as competitive when evaluated in benchmarks consider mAP for high IoU thresholds. In this paper, we proposed a novel single stage end-to-end trainable object detection network to overcome this limitation. We achieved this by introducing Recurrent Rolling Convolution (RRC) architecture over multi-scale feature maps to construct object classifiers and bounding box regressors which are "deep in context". We evaluated our method in the challenging KITTI dataset which measures methods under IoU threshold of 0.7. We showed that with RRC, a single reduced VGG-16 based model already significantly outperformed all the previously published results. At the time this paper was written our models ranked the first in KITTI car detection (the hard level), the first in cyclist detection and the second in pedestrian detection. These results were not reached by the previous single stage methods. The code is publicly available.
研究动机与目标
- 为解决单阶段检测器在生成高IoU边界框方面存在的局限性,特别是针对小目标或遮挡目标。
- 在不依赖区域建议网络或更深骨干网络的前提下,提升单阶段检测器的定位精度。
- 实现端到端训练的单阶段检测器,使其在KITTI等挑战性基准上表现具有竞争力。
- 证明通过递归特征聚合实现的上下文感知优化,可超越标准单阶段回归方法。
提出的方法
- 提出循环滚动卷积(RRC),一种递归架构,通过在多尺度特征图间聚合上下文特征,迭代优化目标提议。
- 将RRC应用于单阶段检测器中,用于回归边界框和分类目标,实现‘上下文中的深度’特征优化。
- 采用精简的VGG-16骨干网络,以隔离RRC模块对性能的贡献,确保性能提升源于所提出的模块而非骨干网络容量。
- 在特征输出3–5层上应用标准非极大值抑制(NMS),消融实验表明其在后续输出上性能优于NMS。
- 设计RRC模块以滚动、递归方式处理特征,实现渐进且选择性的上下文融合。
- 端到端训练整个网络,实现特征提取、上下文聚合与检测头预测的联合优化。
实验结果
研究问题
- RQ1单阶段检测器是否能在不使用区域建议网络或更深骨干网络的情况下,在KITTI等高IoU基准上实现最先进性能?
- RQ2对边界框预测进行递归的、上下文感知的优化,是否能显著提升小目标或遮挡目标的定位精度?
- RQ3通过新型递归特征聚合模块实现端到端训练的单阶段检测器,是否能在高IoU阈值下的mAP上超越现有两阶段方法?
- RQ4性能提升是源于RRC模块本身,还是仅仅因为骨干网络更强?
主要发现
- 基于RRC的单阶段检测器在KITTI汽车检测测试集(hard类别)上达到89.85%的mAP,超越所有先前发表的结果。
- RRC模型的集成在相同基准上达到90.19%的mAP,位列所有提交方法(包括未发表的匿名结果)第一。
- 在行人检测基准(moderate集)上,RRC达到75.33%的mAP,排名第二,优于先前发表的方法。
- 在骑行人检测基准(moderate集)上,RRC达到76.47%的mAP,位列所有发表及匿名提交方法中第一。
- 当IoU阈值提高到0.8时,RRC相比基线SSD性能提升超过6%,证实其在高精度定位中的有效性。
- 消融研究显示,RRC始终优于在后期输出上使用NMS的变体(RRC*),验证了所提架构的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。