[论文解读] One-Shot Object Detection with Co-Attention and Co-Excitation
本文提出一个 Co-attention and Co-excitation (CoAE) 框架用于单样本目标检测,使用非局部互注意力和 squeeze-and-co-excitation 在无需微调的情况下检测未见类别对象,在 VOC 和 COCO 上取得了强劲的结果。
This paper aims to tackle the challenging problem of one-shot object detection. Given a query image patch whose class label is not included in the training data, the goal of the task is to detect all instances of the same class in a target image. To this end, we develop a novel {\em co-attention and co-excitation} (CoAE) framework that makes contributions in three key technical aspects. First, we propose to use the non-local operation to explore the co-attention embodied in each query-target pair and yield region proposals accounting for the one-shot situation. Second, we formulate a squeeze-and-co-excitation scheme that can adaptively emphasize correlated feature channels to help uncover relevant proposals and eventually the target objects. Third, we design a margin-based ranking loss for implicitly learning a metric to predict the similarity of a region proposal to the underlying query, no matter its class label is seen or unseen in training. The resulting model is therefore a two-stage detector that yields a strong baseline on both VOC and MS-COCO under one-shot setting of detecting objects from both seen and never-seen classes. Codes are available at https://github.com/timy90022/One-Shot-Object-Detection.
研究动机与目标
- 解决在给定来自未见类别的查询补丁的目标图像中检测未见类别对象的挑战。
- 利用查询与目标信息的联合来为单样本检测生成更好的区域提议。
- 开发一种度量学习风格的机制,通过与查询的相似性对提议进行排序,在测试时不需要已见类别的标签。
- 通过学习鲁棒的相似性度量,使检测未见对象具备类别无关性且无需训练即可进行。
提出的方法
- 在 Faster R-CNN 基础上扩展非局部互注意力,以生成耦合查询与目标图像的非局部区域提议(co-attention)。
- 引入 squeeze-and-co-excitation (SCE) 以自适应地为查询和目标的特征通道重新加权以改善匹配(GAP,类似 SE 块的两个全连接/MLP 层)。
- 在经协同激励后,从 F(p) 计算查询特征 q,从 F(I) 计算区域特征 r,并使用具有边际基准排名损失的两层 MLP 学习提议与查询之间的相似性度量。
- 使用基于 IoU>0.5 的前景/背景标注进行训练,并结合 Faster R-CNN 的 L_CE 和 L_Reg 损失以及边缘基准排序损失 L_MR(m^+ = 0.7, m^- = 0.3)进行训练。
- 采用简化的 ImageNet 预训练以避免在骨干网络初始化阶段看到 COCO/VOC 类(725 类),并与完整的 1000 类预训练进行比较。
实验结果
研究问题
- RQ1查询补丁与目标图像之间的协同注意力是否可以提高单样本检测的区域提议质量?
- RQ2挤压-协同激励机制是否有助于强调未见类别检测的相关特征通道?
- RQ3边缘基准排序损失是否能够在未见与已见类别上隐式地学习一个鲁棒的提议-查询相似性度量?
主要发现
- CoAE 框架在 VOC 和 COCO 数据集上为单样本检测提供了一个强基线。
- 消融实验表明,非局部(co-attention)和 SCE(co-excitation)组件都显著提升了性能,组合使用时有累积提升。
- 通过学习一个期望的提议排序,边界基准排序损失带来额外的、但适度的改进。
- 在 COCO 上,Our (1k) 在各分割的 AP50 相对于基线 SiamMask 有提升,表明对未见类别具有良好泛化。
- 可视化结果证实非局部提议聚焦于受查询影响的目标区域,且协同激励揭示了有意义的类级权重分布(例如动物组与车辆组)。
- 该方法在未见类别检测下仍然稳健,并在 VOC 和 COCO 上相对于基线取得改进结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。