QUICK REVIEW

[论文解读] Two-Phase Learning for Weakly Supervised Object Localization

Dahun Kim, Donghyeon Cho|arXiv (Cornell University)|Aug 7, 2017

Visual Attention and Saliency Detection参考文献 36被引用 40

一句话总结

本文提出了一种两阶段学习框架，用于弱监督目标定位，克服了模型仅关注物体最判别性部分的局限性。通过在第二阶段训练中，利用推理条件反馈抑制第一阶段网络显著区域的激活，模型发现了互补的次要物体部分，结合两阶段特征图实现完整物体范围的定位，在Pascal VOC 2012数据集上达到最先进性能。

ABSTRACT

Weakly supervised semantic segmentation and localiza- tion have a problem of focusing only on the most important parts of an image since they use only image-level annota- tions. In this paper, we solve this problem fundamentally via two-phase learning. Our networks are trained in two steps. In the first step, a conventional fully convolutional network (FCN) is trained to find the most discriminative parts of an image. In the second step, the activations on the most salient parts are suppressed by inference conditional feedback, and then the second learning is performed to find the area of the next most important parts. By combining the activations of both phases, the entire portion of the tar- get object can be captured. Our proposed training scheme is novel and can be utilized in well-designed techniques for weakly supervised semantic segmentation, salient region detection, and object location prediction. Detailed experi- ments demonstrate the effectiveness of our two-phase learn- ing in each task.

研究动机与目标

解决弱监督目标定位中的根本性局限，即模型因图像级标注而仅关注物体最判别性部分。
开发一种训练策略，使深度网络在两个不同训练阶段中发现并定位同一物体的多个显著区域。
通过组合两个按序训练的互补网络的特征图，提升目标定位、语义分割和显著性检测性能。
从根本上改变学习过程，消除对外部区域提议或复杂池化机制的依赖。

提出的方法

第一阶段使用图像级标注训练一个标准全卷积网络（FCN），识别物体的最判别性部分，生成类别特定的特征图。
第二阶段通过推理条件反馈抑制第一阶段识别出的显著区域的激活响应，迫使网络关注不那么显著但依然相关的物体部分。
抑制操作在推理过程中通过掩码第一阶段网络输出的高激活区域来实现，有效使第二阶段网络避免冗余特征。
最终通过组合两个网络的特征图实现目标定位，捕获目标物体更广泛的空域范围。
该方法应用于弱监督语义分割、显著性检测和目标定位任务，无需额外标注。
在Pascal VOC 2012数据集上使用mAP和IoU指标进行评估，消融实验验证了两阶段设计的有效性。

实验结果

研究问题

RQ1两阶段训练策略是否能超越仅关注最判别性部分，在弱监督学习中提升完整物体范围的定位性能？
RQ2在第一阶段网络中抑制最显著特征，是否能促使第二阶段网络发现语义上有意义的互补物体区域？
RQ3通过组合两个按序训练网络的特征图，在目标定位、分割和显著性检测中性能提升的幅度有多大？
RQ4两个网络的最显著激活空间位置在距离和语义一致性方面有何差异？

主要发现

第一阶段网络在Pascal VOC 2012验证集上达到88.1%的mAP，证实其在最判别性部分上具有强大的定位能力。
第二阶段网络达到82.6%的mAP，表明其在抑制主特征后仍能成功定位次要物体部分。
两阶段网络预测位置之间的平均欧氏距离为69像素，表明它们聚焦于同一物体的不同、非重叠区域。
定性结果表明，两个网络突出了不同但语义一致的部分，如船的帆或汽车的支柱，证实了互补特征的发现。
组合特征图显著提升了完整物体定位效果，定性结果展示出扩展且更准确的分割掩码。
该方法优于基线弱监督模型，且无需外部区域提议或复杂池化层，证明了其有效性与简洁性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。