[论文解读] Weakly- and Semi-Supervised Object Detection with Expectation-Maximization Algorithm
本文提出一种基于期望最大化(EM)的框架,用于使用深度卷积神经网络进行弱监督和半监督目标检测,将实例级标签视为缺失数据,通过迭代优化提升目标定位与检测性能。在仅使用图像级标签的情况下,该方法在PASCAL VOC 2007数据集上实现了46.1%的mAP(使用VGG网络),达到弱监督检测的最先进水平;在仅使用40%实例级标签时,其性能几乎与完全监督的Fast R-CNN相当。
Object detection when provided image-level labels instead of instance-level labels (i.e., bounding boxes) during training is an important problem in computer vision, since large scale image datasets with instance-level labels are extremely costly to obtain. In this paper, we address this challenging problem by developing an Expectation-Maximization (EM) based object detection method using deep convolutional neural networks (CNNs). Our method is applicable to both the weakly-supervised and semi-supervised settings. Extensive experiments on PASCAL VOC 2007 benchmark show that (1) in the weakly supervised setting, our method provides significant detection performance improvement over current state-of-the-art methods, (2) having access to a small number of strongly (instance-level) annotated images, our method can almost match the performace of the fully supervised Fast RCNN. We share our source code at https://github.com/ZiangYan/EM-WSD.
研究动机与目标
- 解决仅使用图像级标签训练高精度目标检测器的挑战,因为图像级标签的收集成本远低于边界框标注。
- 克服现有弱监督检测方法的局限性,这些方法将候选框视为独立且使用硬性决策,导致定位性能不佳。
- 在无需额外强标注类别的情况下实现半监督检测,使其在真实应用场景中更具实用性。
- 通过在EM框架中对目标定位的不确定性进行建模,实现概率标签估计,从而提升训练稳定性和性能。
- 开发一个统一的框架,适用于弱监督与半监督设置,且使用相同的优化过程。
提出的方法
- 将实例级标签视为缺失数据,应用EM算法迭代估计其在目标候选框上的概率分布。
- 在E步中,利用当前CNN权重和图像级标签,对所有可能的目标位置计算软性概率分布。
- 在M步中,使用E步中估计的概率更新CNN参数,以优化观测到的图像级标签的期望似然。
- 使用WSDDN作为初始化方法,以提升收敛速度并避免在非凸优化空间中陷入不良局部极小值。
- 应用K-EM,即EM的一种变体,通过每张图像使用k个最佳候选框,提升效率与定位精度。
- 在统一的训练目标中整合图像级与实例级标签,实现对半监督设置的无缝适应。
实验结果
研究问题
- RQ1通过建模目标定位中的不确定性而非采用硬性决策,基于EM的框架是否能够提升弱监督目标检测的性能?
- RQ2当仅使用图像级标签进行训练时,基于EM的检测方法与当前最先进方法相比表现如何?
- RQ3在半监督设置中,少量实例级标签在多大程度上能够缩小弱监督与完全监督检测器之间的性能差距?
- RQ4该方法在不同主干网络(如AlexNet和VGG)上是否具有良好的泛化能力?
- RQ5该EM框架是否能够统一应用于弱监督与半监督设置,而无需依赖额外标注的类别?
主要发现
- 在弱监督设置下,该方法在PASCAL VOC 2007上使用AlexNet实现39.4%的mAP,使用VGG实现46.1%的mAP,优于当前最先进方法。
- 仅使用40%实例级标签与60%图像级标签时,该方法达到55.7%的mAP,仅比完全监督的Fast R-CNN(57.1% mAP)低1.4%。
- 随着EM迭代的进行,定位质量逐步提升,如在弱标注图像上响应图的精细化所示。
- 该框架通过软性概率分配成功处理了目标定位中的不确定性,避免了以往基于MI-SVM方法中硬性决策的局限性。
- 该方法在不同网络架构间具有良好的泛化能力,在弱监督与半监督设置下均一致地优于基线方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。