[论文解读] Relation Networks for Object Detection
本文介绍一个对象关系模块,通过外观和几何来建模检测到的对象之间的互动,使基于CNN的管道实现端到端的对象检测改进,包括实例识别和重复移除。
Although it is well believed for years that modeling relations between objects would help object recognition, there has not been evidence that the idea is working in the deep learning era. All state-of-the-art object detection systems still rely on recognizing object instances individually, without exploiting their relations during learning. This work proposes an object relation module. It processes a set of objects simultaneously through interaction between their appearance feature and geometry, thus allowing modeling of their relations. It is lightweight and in-place. It does not require additional supervision and is easy to embed in existing networks. It is shown effective on improving object recognition and duplicate removal steps in the modern object detection pipeline. It verifies the efficacy of modeling object relations in CNN based detection. It gives rise to the first fully end-to-end object detector.
研究动机与目标
- 动机并验证在深度卷积神经网络中对对象之间关系进行建模能够提升检测性能。
- 开发一个轻量级、就地的对象关系模块,可以在不需要额外监督的情况下集成到现有检测器中。
- 展示实例识别和重复移除的改进,促进端到端目标检测。
- 提供端到端训练证据,显示提案、识别和重复移除阶段的联合优化。
提出的方法
- 将注意力机制扩展为对一组对象而非序列元素进行操作。
- 通过将学习得到的基于外观的注意力与一个平移不变的几何权重相结合,计算对象关系特征。
- 使用多关系方案与多个关系头来捕捉多样的交互,并将关系特征与输入的外观特征进行聚合。
- 用一个可学习的重复移除网络替代传统的NMS,该网络对所有提案及其分数进行推理,使用排序特征和空间几何信息。
- 通过对关系模块进行反向传播,将梯度传递到骨干网络和头网络,实现端到端训练。
实验结果
研究问题
- RQ1将类似注意力的对象关系模块集成到标准基于区域的检测器中,是否能改善实例识别?
- RQ2建模成对对象的几何与外观关系是否能提升重复移除,超越传统的NMS/Soft-NMS?
- RQ3当关系模块对提案、识别和重复移除阶段进行联合优化时,端到端训练是否可行并有益?
- RQ4关系数量与关系模块的数量如何影响检测性能和计算成本?
主要发现
| Head | mAP | mAP 50 | mAP 75 | #Params | FLOPS |
|---|---|---|---|---|---|
| (a) 2fc (1024) | 29.6 | 50.9 | 30.1 | 38.0M | 80.2B |
| (b) 2fc (1432) | 29.7 | 50.3 | 30.2 | 44.1M | 82.0B |
| (c) 3fc (1024) | 29.0 | 49.4 | 29.6 | 39.0M | 80.5B |
| (d) 2fc+res {r1,r2}={1,1} | 29.9 | 50.6 | 30.5 | 44.0M | 82.1B |
| (e) 2fc+global | 29.6 | 50.3 | 30.8 | 38.2M | 82.2B |
| (f) 2fc+RM {r1,r2}={1,1} | 31.9 | 53.7 | 33.1 | 44.0M | 82.6B |
| (g) 2fc (1024) + 2x | 30.4 | 51.7 | 31.4 | 50.2M | 83.8B |
| (h) 2fc+2x +RM {r1,r2}={1,1} | 32.5 | 54.3 | 34.1 | 56.2M | 86.2B |
| (i) 2fc+res {r1,r2}={2,2} | 29.8 | 50.5 | 30.5 | 50.0M | 84.0B |
| (j) 2fc+RM {2,2} | 32.5 | 54.0 | 33.8 | 50.0M | 84.9B |
- 将对象关系模块引入后相较基线的2fc头取得显著提升;单个关系模块时,mAP从29.6提升至31.9,添加配置后可达到32.5 mAP。
- 使用多个关系头和关系模块可获得进一步提升,在2fc+RM与1,1配置下达到32.5 mAP,在某些设定下将2x上下文与RM结合可达到34.1 mAP。
- 几何权重被证明重要;用更简单的变体替代会降低性能,最佳设计包含一个可学习的几何嵌入且具有平移不变性。
- 所提出的重复移除网络在与关系模块联合训练时,在精度和速度上均优于传统的NMS/Soft-NMS,并实现端到端训练。
- 端到端训练能够联合优化提案、识别和重复移除,相比独立训练阶段,提升识别准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。