[论文解读] Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing
本文提出R3-CNN,一种用于实例分割的单阶段检测器架构,通过递归重采样机制在IoU阈值范围内重新平衡区域提议(RoIs),在不采用多阶段级联检测器的情况下解决了正样本指数级消失问题。该方法在COCO 2017 minival上实现了最先进性能,参数量显著少于HTC等模型,同时在多种主干网络架构上保持了高精度与高效的推理速度,其递归机制通过网络权重编码实现。
Within the field of instance segmentation, most of the state-of-the-art deep learning networks rely nowadays on cascade architectures, where multiple object detectors are trained sequentially, re-sampling the ground truth at each step. This offers a solution to the problem of exponentially vanishing positive samples. However, it also translates into an increase in network complexity in terms of the number of parameters. To address this issue, we propose Recursively Refined R-CNN (R^3-CNN) which avoids duplicates by introducing a loop mechanism instead. At the same time, it achieves a quality boost using a recursive re-sampling technique, where a specific IoU quality is utilized in each recursion to eventually equally cover the positive spectrum. Our experiments highlight the specific encoding of the loop mechanism in the weights, requiring its usage at inference time. The R^3-CNN architecture is able to surpass the recently proposed HTC model, while reducing the number of parameters significantly. Experiments on COCO minival 2017 dataset show performance boost independently from the utilized baseline model. The code is available online at https://github.com/IMPLabUniPr/mmdetection/tree/r3_cnn.
研究动机与目标
- 解决实例分割中的指数级消失正样本(EVPS)问题,即高IoU阈值导致优质提议稀少的问题。
- 通过用单阶段轻量级检测器架构替代多阶段级联检测器,降低模型复杂度。
- 在显著减少参数量的同时,实现与最先进模型(如HTC)相当的性能。
- 通过将R3-CNN集成到多种现有架构中,证明其泛化能力,并展示一致的性能提升。
提出的方法
- 提出一种递归重采样机制,在每次递归中于预设的IoU阈值处生成新的区域提议(RoIs),以平衡IoU范围内的正样本。
- 采用编码于网络权重中的循环机制,实现在训练和推理过程中对提议的递归优化。
- 使用单个检测器,每个目标类别配备多个分支头,每个头在特定IoU质量的提议上进行训练,确保在不同提议质量水平上的学习均衡。
- 采用自循环RoI重平衡策略,即在每次递归循环中逐步提高IoU阈值对提议进行重采样,从而逐步提升检测质量。
- 采用多循环训练策略,每个循环对应一个不同的IoU阈值,最终循环输出最高质量的预测结果。
- 支持端到端训练与推理,循环次数为固定值,作为控制精度、速度与模型大小之间权衡的超参数。
实验结果
研究问题
- RQ1单阶段检测器架构是否能有效解决指数级消失正样本问题,而无需依赖多阶段级联网络?
- RQ2在递增的IoU阈值下对RoIs进行递归重采样,如何影响正样本的平衡性及整体模型性能?
- RQ3R3-CNN在不增加参数量的前提下,能在多大程度上提升多种主干网络架构的性能?
- RQ4在精度、推理速度与模型复杂度之间取得平衡时,最优的递归循环次数是多少?
主要发现
- R3-CNN在COCO minival 2017上达到40.9 AP(3个循环,每类一个头),优于Mask R-CNN(38.2 AP),接近HTC性能,但参数量显著更少。
- 采用3个循环和每类一个头的模型(R3-CNN-L)在COCO上达到44.8 AP、43.6 AP mask和56.1 APl,多数指标超越HTC,并在消融实验中优于所有基线模型。
- 将R3-CNN集成到GC-Net、DCN和GRoIE等最先进模型中,性能持续提升,其中R3-CNN-L+GC-Net达到44.3 AP和43.5 AP mask,高于HTC+GC-Net的AP和APm。
- 随着循环数增加,性能增益在三个循环后趋于饱和,四或五个循环带来的提升可忽略,表明超过三次递归后收益递减。
- 消融实验证实,递归重采样机制是性能提升的关键因素,若移除该机制,性能将回落至Mask R-CNN水平。
- 在推理阶段,循环机制至关重要,因为模型权重编码了递归结构,使得推理结果依赖于训练时使用的循环次数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。