[论文解读] SCRDet++: Detecting Small, Cluttered and Rotated Objects via Instance-Level Feature Denoising and Rotation Loss Smoothing
SCRDet++ 引入实例级去噪(InLD)与基于 IoU 的旋转损失,以鲁棒地检测小型、杂乱和旋转对象,在航空与自然数据集上提升性能,并发布新的 S2TLD 交通信号灯数据集。
Small and cluttered objects are common in real-world which are challenging for detection. The difficulty is further pronounced when the objects are rotated, as traditional detectors often routinely locate the objects in horizontal bounding box such that the region of interest is contaminated with background or nearby interleaved objects. In this paper, we first innovatively introduce the idea of denoising to object detection. Instance-level denoising on the feature map is performed to enhance the detection to small and cluttered objects. To handle the rotation variation, we also add a novel IoU constant factor to the smooth L1 loss to address the long standing boundary problem, which to our analysis, is mainly caused by the periodicity of angular (PoA) and exchangeability of edges (EoE). By combing these two features, our proposed detector is termed as SCRDet++. Extensive experiments are performed on large aerial images public datasets DOTA, DIOR, UCAS-AOD as well as natural image dataset COCO, scene text dataset ICDAR2015, small traffic light dataset BSTLD and our released S$^2$TLD by this paper. The results show the effectiveness of our approach. The released dataset S2TLD is made public available, which contains 5,786 images with 14,130 traffic light instances across five categories.
研究动机与目标
- 在具有挑战性的场景中(尤其是航空影像)推动对小型、杂乱且任意旋转对象的鲁棒检测。
- 提出一个可插拔的去噪模块(InLD),在特征图上将类别信号解耦并抑制背景/对象间干扰。
- 开发基于 IoU 的旋转回归损失增强(IoU-smooth L1),以解决旋转边界问题。
- 在多个数据集(航空与自然图像)上展示统计性提升,并发布新的数据集(S2TLD)用于交通信号灯检测。
- 证明 InLD 可以超越图像级去噪,并能与现有检测器集成。
提出的方法
- Four-module SCRDet++ 架构:(i) 特征提取,(ii) 可选的图像级去噪(ImLD),(iii) 将特征图上进行实例级去噪(InLD),(iv) 类别+框分支用于目标得分、分类和旋转边界框预测。
- InLD 通过类别对特征信号进行解耦,将类别特定响应推入到单独通道,并在空间域内增强目标区域同时抑制背景。
- InLD 的实现采用带扩张卷积的语义分割引导方法,产生一个 one-hot(或多通道)类别图来门控特征图,产生解耦后的特征图 Y = D_InLD(X) ⊙ X。
- 训练过程中,像素级 softmax 交叉熵的 InLD 损失 L_InLD 用于监督去噪,以强化类内边界并抑制类间干扰。
- 提出用于旋转回归的 IoU 增强平滑 L1 损失(IoU-smooth L1),以缓解角度周期性和边缘可交换性带来的边界问题,并可使用直接或间接(sin/cos)角度表示。
- 该损失结合目标性权重、分类(焦点损失)、回归(平滑 L1 或基于 IoU 的变体)以及 InLD 监督:L = L_reg + L_cls + L_InLD,且可如 Eq. 13 所述带有可选的 IoU 因子。
实验结果
研究问题
- RQ1实例级特征去噪(InLD)是否相比图像级去噪(ImLD)和基线检测器能提升对小型和杂乱对象的检测?
- RQ2IoU-smooth L1 损失是否能有效解决任意朝向对象检测中的旋转边界问题?
- RQ3与 state-of-the-art 方法相比,SCRDet++ 在标准旋转对象数据集(DOTA、DIOR、UCAS-AOD)和自然图像目标(COCO、ICDAR2015、BSTLD、S2TLD)上的表现如何?
- RQ4InLD 是否是一个可插入现有检测器的插件组件且开销最小,与前一个会议版本相比有何差异?
- RQ5发布的 S2TLD 交通信号灯数据集对在真实世界的小物体场景中验证 InLD 的影响如何?
主要发现
- InLD 提升了检测性能,消融实验显示在航空与旋转任务中优于 ImLD 与基线方法。
- 与会议版本相比,期刊版 SCRDet++ 在总体检测精度上更高(例如 DOTA-v1.0 上 OBB 为 76.81% 对 72.61%;DOTA-v1.0 上 HBB 为 79.35% 对 75.35%)。
- InLD 模块可以以轻量级的参数/计算开销实现,并可以集成到现有检测器中以提升旋转和小目标检测。
- IoU-smooth L1 损失减少了旋转回归中的边界相关不稳定性,提高了旋转边界框的精度。
- 发布了新的现实世界交通信号灯数据集 S2TLD(5,786 张图像,14,130 个实例,覆盖 5 个类别),用于在航空影像之外验证 InLD。
- 表格消融(如表 II)显示 InLD 的变体(二值/多遮罩,有无对象性耦合)相较于基础模型取得可观提升。
- 总体而言,SCRDet++ 在大规模航空数据集(DOTA、DIOR、UCAS-AOD)上表现强劲,在自然图像数据集(COCO、ICDAR2015)及自有数据集(BSTLD、S2TLD)上展现鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。