QUICK REVIEW

[论文解读] Object Counting and Instance Segmentation with Image-level Supervision

Hisham Cholakkal, Guolei Sun|arXiv (Cornell University)|Mar 6, 2019

Advanced Neural Network Applications参考文献 33被引用 22

一句话总结

本文提出一种基于新型密度图估计方法的图像级监督方法，用于联合进行目标计数与实例分割，可同时预测全局目标数量与空间分布。通过利用子计数范围标注（1–4个目标），在PASCAL VOC 2012上将图像级实例分割的平均最佳重叠（ABO）提升17.8%，并在目标计数任务上达到当前最优性能。

ABSTRACT

Common object counting in a natural scene is a challenging problem in computer vision with numerous real-world applications. Existing image-level supervised common object counting approaches only predict the global object count and rely on additional instance-level supervision to also determine object locations. We propose an image-level supervised approach that provides both the global object count and the spatial distribution of object instances by constructing an object category density map. Motivated by psychological studies, we further reduce image-level supervision using a limited object count information (up to four). To the best of our knowledge, we are the first to propose image-level supervised density map estimation for common object counting and demonstrate its effectiveness in image-level supervised instance segmentation. Comprehensive experiments are performed on the PASCAL VOC and COCO datasets. Our approach outperforms existing methods, including those using instance-level supervision, on both datasets for common object counting. Moreover, our approach improves state-of-the-art image-level supervised instance segmentation with a relative gain of 17.8% in terms of average best overlap, on the PASCAL VOC 2012 dataset. Code link: https://github.com/GuoleiSun/CountSeg

研究动机与目标

在弱图像级监督下，解决同时预测全局目标数量与实例空间分布的挑战。
通过仅使用有限的目标数量标注（1–4个实例），借鉴人类子计数行为，降低标注成本。
通过引入空间密度图预测，提升图像级监督下实例分割的定位精度，以更好地分离相邻实例。
证明仅使用最小数量标注的图像级监督，可超越依赖更强实例级监督（如边界框或点级标注）的现有方法。
通过共享密度图表示，弥合目标计数与实例分割之间的差距。

提出的方法

使用深度神经网络构建每类别的目标密度图，训练时采用一种新颖的损失函数，强制预测密度与真实目标数量保持一致。
仅使用每类别的总目标数量（限定为1–4个实例）作为图像级监督信号训练模型，从而降低标注成本。
在目标提议的评分函数中引入惩罚项，优先选择预测数量为1的提议，以改善相邻实例的定位。
通过在提议区域内部累积密度值，利用预测的密度图指导实例掩码的生成，提升空间定位精度。
端到端联合训练模型，结合回归损失用于全局计数预测，以及空间一致性损失用于提升密度图的准确性。
通过将预测密度图作为空间先验，改进峰值响应图（PRM）框架，以提升实例分割的掩码定位性能。

实验结果

研究问题

RQ1仅使用每张图像1–4个目标数量的图像级监督，能否实现对全局目标数量与空间分布的准确预测？
RQ2在弱监督下，学习到的密度图在提升实例分割性能方面有多有效？
RQ3子计数范围监督（1–4个目标）是否足以泛化到包含超过四个目标的场景？
RQ4在实例分割中，引入空间密度信息是否能改善相邻同类目标实例的定位？
RQ5弱监督方法是否能在目标计数与分割任务上超越依赖更强监督信号（如边界框或点级标注）的现有方法？

主要发现

所提方法在COCO与PASCAL VOC 2007上的目标计数任务中表现优异，RMSE在所有计数范围内均优于图像级与实例级监督方法。
在PASCAL VOC 2007的“人”类别上，该方法取得GAME(3)得分为1.83，优于PL监督的LCFCN（2.80）与CSRNet（2.44）。
在PASCAL VOC 2012的图像级监督实例分割任务中，该方法将当前最优的PRM基线模型在平均最佳重叠（ABO）上提升17.8%，达到44.3%。
该方法显著改善了同类相邻实例（如多只绵羊或马）的定位性能，而PRM模型则无法有效分离这些实例。
在高IoU阈值（如0.75）下性能增益最为明显，表明密度图的空间引导显著提升了掩码与真实标注的一致性。
模型在子计数范围之外也表现出良好泛化能力，在仅用1–4个实例训练的条件下，仍能准确计数出严重遮挡场景中的11个“人”

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。