[论文解读] RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free
RetinaMask 通过增加一个实例掩码头、一个自适应自调 Smooth L1 损失,以及更难样本采样,在不增加推理成本的情况下提升检测准确率。
Recently two-stage detectors have surged ahead of single-shot detectors in the accuracy-vs-speed trade-off. Nevertheless single-shot detectors are immensely popular in embedded vision applications. This paper brings single-shot detectors up to the same level as current two-stage techniques. We do this by improving training for the state-of-the-art single-shot detector, RetinaNet, in three ways: integrating instance mask prediction for the first time, making the loss function adaptive and more stable, and including additional hard examples in training. We call the resulting augmented network RetinaMask. The detection component of RetinaMask has the same computational cost as the original RetinaNet, but is more accurate. COCO test-dev results are up to 41.4 mAP for RetinaMask-101 vs 39.1mAP for RetinaNet-101, while the runtime is the same during evaluation. Adding Group Normalization increases the performance of RetinaMask-101 to 41.7 mAP. Code is at:https://github.com/chengyangfu/retinamask
研究动机与目标
- 在保持推理成本不变的情况下提高单发检测器的准确性
提出的方法
- 在训练期间为 RetinaNet 增加一个实例掩码预测头
- 引入自适应的 Smooth L1 损失,通过运行均值/方差进行适应
- 采用最佳匹配策略,放宽用于分配正锚框的 IOU 阈值
- 将掩码提案分配到合适的 FPN 层并应用 ROI-Align 进行掩码预测
- 使用多尺度调度和扩展迭代对掩码模块进行训练
- 在 COCO 上将 RetinaMask 与 RetinaNet 和 Mask R-CNN 进行对比
实验结果
研究问题
- RQ1在训练期间增加掩码预测任务是否在不改变测试时成本的情况下提升单发检测器的准确性?
- RQ2自适应损失和扩展的正锚采样是否改善了训练稳定性和最终性能?
- RQ3在 COCO 数据集上,RetinaMask 在边界框和掩码精度方面与 RetinaNet 和 Mask R-CNN 的比较如何?
主要发现
- RetinaMask-101 结合 GN 在 COCO test-dev 上达到 41.7 bbox AP 与 52.8 mask AP,显著超越 RetinaNet-101 的性能
- 基于 ResNeXt-101-FPN-GN 的 RetinaMask 达到 42.6 bbox AP 与 53.8 mask AP,表明使用更强的骨干网可以带来进一步提升
- 掩码预测头在使用 1.5x 调度和适当的特征分配(P2–P5 用于掩码)时提高了检测性能
- 自适应 Smooth L1 损失在各种设置下提供稳健的边框回归性能并优于固定 beta 配置
- 最佳匹配策略(放宽最优匹配锚框的 IOU)带来更高的准确性并减少重复检测
- 与 Mask R-CNN 相比,在所报道的设置中 RetinaMask 的边框性能具有竞争力,而掩码性能略低
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。