[论文解读] Comprehensive Attention Self-Distillation for Weakly-Supervised Object Detection
CASD通过汇聚来自多种图像变换和特征层的全面注意力来增强弱监督目标检测,然后在WSOD模型中自蒸馏该注意力,以实现平衡且空间一致的检测,在VOC和COCO上取得了最先进的结果。
Weakly Supervised Object Detection (WSOD) has emerged as an effective tool to train object detectors using only the image-level category labels. However, without object-level labels, WSOD detectors are prone to detect bounding boxes on salient objects, clustered objects and discriminative object parts. Moreover, the image-level category labels do not enforce consistent object detection across different transformations of the same images. To address the above issues, we propose a Comprehensive Attention Self-Distillation (CASD) training approach for WSOD. To balance feature learning among all object instances, CASD computes the comprehensive attention aggregated from multiple transformations and feature layers of the same images. To enforce consistent spatial supervision on objects, CASD conducts self-distillation on the WSOD networks, such that the comprehensive attention is approximated simultaneously by multiple transformations and feature layers of the same images. CASD produces new state-of-the-art WSOD results on standard benchmarks such as PASCAL VOC 2007/2012 and MS-COCO.
研究动机与目标
- 通过解决对显著对象、聚簇实例和辨识性部分的偏向来推动WSOD。
- 开发一种通过全面注意力在对象实例之间平衡特征学习的机制。
- 通过在WSOD网络内自蒸馏全面注意力来强制实现空间和实例级的一致性。
- 将图像变换和多层特征作为自由监督信号进行利用。
- 在标准WSOD基准上演示出最先进的性能。
提出的方法
- 以OICR WSOD框架作为基础检测器和MIL头为基础。
- 从proposal特征图计算proposal attention maps,并将它们聚合为跨变换和跨层的全面注意力。
- 通过将原始输入、翻转输入和缩放输入的全面注意力对齐,引入Input-wise CASD(IW-CASD);使用最大融合形成A_r^{IW},并最小化L_IW以在变换视图之间将各个注意力对齐到A_r^{IW}。
- 通过将来自多个CNN层的注意力图聚合到A_r^{LW}并最小化L_LW,在层间将每一层的注意力对齐到A_r^{LW},从而引入Layer-wise CASD(LW-CASD)。
- 通过复用全面注意力映射作为软监督来正则化WSOD特征提取器,从而进行自蒸馏,无需外部教师。
- 将MIL损失、细化损失、回归损失与CASD损失结合成一个统一的端到端训练目标。
实验结果
研究问题
- RQ1通过跨越多重变换和特征层聚合的全面注意力,是否能在WSOD定位上超越标准注意力图?
- RQ2在WSOD模型中对全面注意力进行自蒸馏,是否可以在对象实例和变换之间提高一致性和平衡?
- RQ3Input-wise 与 Layer-wise CASD 及其组合对WSOD性能的贡献是什么?
- RQ4与WSOD中的其他注意力正则化策略相比,CASD 的表现如何?
主要发现
- CASD在VOC 2007上显著提高mAP(基线48.9%到完整CASD为56.8%),在VOC 2012也有提升,并在不同骨干网络下对MS-COCO显示出强劲增益。
- Input-wise CASD(IW)通过对图像变换聚合注意力带来较大收益,例如IW在VOC 2007上相对基线提升约5.2个百分点。
- Layer-wise CASD(LW)通过跨CNN层聚合注意力带来额外增益,LW+CASD相对于基线取得显著提升。
- 将IW和LW与回归和更强的数据增强相结合,实现了最佳VOC 2007分数(56.8% mAP 0.5)以及在MS-COCO和VOC 2012上的强劲结果。
- 在WSOD消融实验中,CASD优于预测一致性和注意力一致性基线,表明更优的注意力正则化。
- 消融研究显示中间层(B2-B4)对WSOD平衡注意力贡献最大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。