[论文解读] Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection
Strip R-CNN 在骨干网中引入顺序正交的大条卷积,并在定位头中使用条带增强以改善对遥感中高纵横比对象的检测,在 DOTA 及其他基准上达到最先进的结果。
While witnessed with rapid development, remote sensing object detection remains challenging for detecting high aspect ratio objects. This paper shows that large strip convolutions are good feature representation learners for remote sensing object detection and can detect objects of various aspect ratios well. Based on large strip convolutions, we build a new network architecture called Strip R-CNN, which is simple, efficient, and powerful. Unlike recent remote sensing object detectors that leverage large-kernel convolutions with square shapes, our Strip R-CNN takes advantage of sequential orthogonal large strip convolutions in our backbone network StripNet to capture spatial information. In addition, we improve the localization capability of remote-sensing object detectors by decoupling the detection heads and equipping the localization branch with strip convolutions in our strip head. Extensive experiments on several benchmarks, for example DOTA, FAIR1M, HRSC2016, and DIOR, show that our Strip R-CNN can greatly improve previous work. In particular, our 30M model achieves 82.75% mAP on DOTA-v1.0, setting a new state-of-the-art record. Our code will be made publicly available.Code is available at https://github.com/YXB-NKU/Strip-R-CNN.
研究动机与目标
- 提升对遥感影像中高纵横比(细长)对象的检测能力。
- 提出一种简单、高效的架构,利用正交的大条卷积作为核心空间筛选器。
- 将定位与分类解耦,并在定位头中引入条带卷积以改善角度回归。
- 在多个遥感基准上展示强大性能,包括 DOTA、FAIR1M、HRSC2016 和 DIOR。
提出的方法
- 引入 Strip R-CNN 架构,使用 StripNet 骨干和基于条带的检测头。
- 实现条带模块:在基础块中结合顺序的水平与垂直大条卷积,以及深度可分方形卷积。
- 将定位(及角度)预测与分类解耦,并在定位头中应用条带模块以捕获远程依赖。
- 对分类和角度头采用共享的两层全连接设计,定位头通过条带卷积增强。
- 端到端训练,损失函数为 Lc、Ll、La:分类交叉熵、Smooth L1 定位、Smooth L1 角度。
- 在 DOTA-v1.0/v1.5、FAIR1M-v1.0、HRSC2016、DIOR-R 的单/多尺度设置下进行评估。)
实验结果
研究问题
- RQ1大型条带卷积如何影响遥感图像中不同纵横比对象的特征表征?
- RQ2将定位(角度)与分类解耦并通过条带增强的定位提高姿态与角度回归的准确性吗?
- RQ3与先前的大核卷积或旋转目标检测器相比,Strip R-CNN 变体是否在主要遥感基准上达到最先进的结果?
主要发现
- StripNet-S 与 Strip R-CNN 在单尺度评估中在 DOTA-v1.0 达到 80.06% mAP,优于若干骨干网络。
- Strip R-CNN-S 在 DOTA-v1.0 的集成版本中达到 82.75% mAP,创造新的最先进纪录。
- 在 DOTA-v1.5 上,Strip R-CNN-S 在单尺度评估中达到 72.27% mAP,优于此前方法。
- 在 FAIR1M-v1.0 上,Strip R-CNN-S 达到 48.26% mAP,与强基线相当。
- 在 HRSC2016 与 DIOR-R 上,Strip R-CNN-S 达到最先进或具竞争力的分数(如 HRSC2016 在 VOC12 指标下 98.70%;DIOR-R 为 68.70%)。
- 消融研究确认 19x19 在各阶段为最优条带核大小,并验证水平与垂直条带卷积以序列方式结合的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。