QUICK REVIEW

[论文解读] Fully Convolutional Multi-Class Multiple Instance Learning

Deepak Pathak, Evan Shelhamer|arXiv (Cornell University)|Dec 22, 2014

Image Retrieval and Classification Techniques参考文献 10被引用 267

一句话总结

本文提出了一种完全卷积的多类别多实例学习（MIL）框架，用于仅使用图像级别标签的弱监督语义分割。通过联合优化特征表示与像素级分类，采用选择每类中得分最高的像素的多类别MIL损失，该方法在PASCAL VOC 2012测试集上实现了25.66%的平均交并比（mIoU），相较于基线模型提升了96%的相对性能。

ABSTRACT

Multiple instance learning (MIL) can reduce the need for costly annotation in tasks such as semantic segmentation by weakening the required degree of supervision. We propose a novel MIL formulation of multi-class semantic segmentation learning by a fully convolutional network. In this setting, we seek to learn a semantic segmentation model from just weak image-level labels. The model is trained end-to-end to jointly optimize the representation while disambiguating the pixel-image label assignment. Fully convolutional training accepts inputs of any size, does not need object proposal pre-processing, and offers a pixelwise loss map for selecting latent instances. Our multi-class MIL loss exploits the further supervision given by images with multiple labels. We evaluate this approach through preliminary experiments on the PASCAL VOC segmentation challenge.

研究动机与目标

通过仅利用图像级别标签，解决像素级语义分割的高标注成本问题。
消除弱监督学习中对目标提议或预定义实例假设的需求。
在完全卷积网络中，通过多类别MIL损失联合学习深度特征表示与像素级分类器。
通过多标签图像中的类别间竞争，提升分割精度。

提出的方法

模型采用基于16层VGG架构的完全卷积网络（FCN），从ImageNet预训练权重端到端微调。
通过在每张图像的输出热图中为每个类别（包括背景）选择得分最高的像素，定义多类别MIL损失。
仅在这些选中的点上计算损失，从而实现反向传播，同时避免对背景预测的偏差。
背景类别作为负样本，与正类别竞争，通过类别间混淆提升定位精度。
推理阶段通过双线性插值将粗粒度预测上采样至完整图像分辨率，实现像素级分割。
该框架避免生成实例假设，且无需图像扭曲或提议网络，支持可变输入尺寸。

实验结果

研究问题

RQ1在弱监督下，完全卷积网络的端到端训练能否同时优化表示学习与像素级分类？
RQ2与单类别或二值MIL相比，多类别MIL损失在弱监督分割中如何提升定位精度？
RQ3多标签图像中的类别间竞争在多大程度上能增强潜在目标实例的区分能力？
RQ4在缺乏强监督或分类器初始化的情况下，模型能否避免退化解（如全部预测为背景）？
RQ5所提出的MIL损失在无需边界框标注的情况下，多大程度上能有效选择有信息量的训练实例？

主要发现

MIL-FCN在PASCAL VOC 2012测试集上实现了25.66%的平均交并比（mIoU），相较于使用分类器初始化的基线模型，相对性能提升了96%。
模型在10,000次迭代内收敛，学习率为0.0001，动量为0.9，权重衰减为0.0005，表现出快速且稳定的训练过程。
使用ImageNet分类器权重初始化常见类别，有效防止了退化解，并将验证集上的mIoU从3.52%提升至13.11%。
该方法在无需目标提议、数据增强或实例级标注的情况下实现了优异性能，仅依赖图像级别标签。
通过使用粗粒度预测点计算损失，再经插值上采样，实现了高效且可扩展的训练与推理。
图1的定性结果表明，即使没有真实边界框，模型仍能生成连贯且空间一致的分割结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。