[论文解读] RTMDet: An Empirical Study of Designing Real-Time Object Detectors
RTMDet 提供一个实时的一阶段检测器,使用大核深度可分离卷积块和软标签动态分配,在 COCO 上达到 52.8% AP,速度达到 300+ FPS,并在最少修改的前提下支持实例分割和旋转目标检测。
In this paper, we aim to design an efficient real-time object detector that exceeds the YOLO series and is easily extensible for many object recognition tasks such as instance segmentation and rotated object detection. To obtain a more efficient model architecture, we explore an architecture that has compatible capacities in the backbone and neck, constructed by a basic building block that consists of large-kernel depth-wise convolutions. We further introduce soft labels when calculating matching costs in the dynamic label assignment to improve accuracy. Together with better training techniques, the resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+ FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial detectors. RTMDet achieves the best parameter-accuracy trade-off with tiny/small/medium/large/extra-large model sizes for various application scenarios, and obtains new state-of-the-art performance on real-time instance segmentation and rotated object detection. We hope the experimental results can provide new insights into designing versatile real-time object detectors for many object recognition tasks. Code and models are released at https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
研究动机与目标
- 研究旨在在不牺牲速度的前提下,最大化实时检测精度,超越 YOLO 系列基线的架构。
- 探索基于大核深度卷积的主干/颈部设计,以获得更好的全局上下文。
- 通过软标签动态分配和改进的数据增强,提高训练稳定性与精度。
- 展示在尽量少的架构改动下扩展到实例分割和旋转目标检测。
提出的方法
- 引入一个由包含 5x5 深度卷积的构建块构成的主干/颈部,以增大感受野。
- 通过减少模块块数来降低模型深度,并以更宽的卷积块来弥补容量与速度。
- 通过提高颈部扩张比率来平衡主干与颈部容量,使之与主干能力相匹配。
- 在各尺度间共享检测头,并使用尺度特定的 BN 层以减少参数。
- 采用基于 SimOTA 的动态软标签分配,代价函数为 C = λ1C_cls + λ2C_reg + λ3C_center,并在 C_cls 中使用软标签。
- 用 -log(IoU) 替代回归代价,并对 IoU 使用对数变换以实现区分性匹配;采用软中心区域代价。
- 使用 Cached Mosaic 和 MixUp 来加速训练;实现一个两阶段训练计划,先用强增强再用较弱的增强;采用 AdamW 优化器。
- 扩展到实例分割,添加 kernel/mask 头(RTMDet-Ins),并通过增加角度分支和旋转框解码(RTMDet-R)实现旋转检测。
实验结果
研究问题
- RQ1在主干/颈部使用大核深度卷积块,如何在不牺牲速度的前提下提升实时检测性能?
- RQ2软标签动态分配是否能提升实时检测器的匹配质量和整体精度?
- RQ3哪些训练策略(增强、优化器、学习计划)能最大化实时检测器的精度?
- RQ4RTMDet 是否能在尽量少的架构改动下实现有竞争力的实例分割和旋转目标检测?
主要发现
- RTMDet 在 NVIDIA 3090 上以 300+ FPS 在 COCO 上实现 52.8% AP,超过当前主流工业检测器。
- RTMDet-tiny 在 1020 FPS 下达到 41.1% AP,参数量 4.8M;RTMDet-s 在 819 FPS 下达到 44.6% AP。
- RTMDet-m 和 RTMDet-l 在可扩展的模型尺寸下达到 49.4% 及更高的 AP,平衡参数与精度。
- RTMDet-Ins-x 在 COCO val2017 上实现 44.6% 的掩码 AP,同时保持实时性;RTMDet-R-tiny/RTMDet-R-m/RTMDet-R-l 在 DOTA v1.0 上实现强的旋转目标检测,其中 RTMDet-R-l 的 COCO 预训练在 DOTA-v1.0 上达到 81.33% mAP。
- 可扩展性:实例分割会额外增加约 10% 的参数;旋转检测仅需最小的框回归调整和 Rotated IoU 损失。
- 软标签动态分配提升匹配判别力和训练稳定性,相较于硬标签分配提高精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。