[论文解读] Can Image-Level Labels Replace Pixel-Level Labels for Image Parsing
本文提出了一种弱监督稀疏学习(WSSL)框架,用廉价的图像级标签替代昂贵的像素级标签进行图像解析。通过将图像过分割为区域,并利用L1-最小化迭代优化区域标签,该方法即使在高达75%的噪声图像级标签下仍能达到最先进性能,证明了图像级标签在实践中可有效替代像素级监督。
This paper presents a weakly supervised sparse learning approach to the problem of noisily tagged image parsing, or segmenting all the objects within a noisily tagged image and identifying their categories (i.e. tags). Different from the traditional image parsing that takes pixel-level labels as strong supervisory information, our noisily tagged image parsing is provided with noisy tags of all the images (i.e. image-level labels), which is a natural setting for social image collections (e.g. Flickr). By oversegmenting all the images into regions, we formulate noisily tagged image parsing as a weakly supervised sparse learning problem over all the regions, where the initial labels of each region are inferred from image-level labels. Furthermore, we develop an efficient algorithm to solve such weakly supervised sparse learning problem. The experimental results on two benchmark datasets show the effectiveness of our approach. More notably, the reported surprising results shed some light on answering the question: can image-level labels replace pixel-level labels (hard to access) as supervisory information for image parsing.
研究动机与目标
- 为解决在社交图像集合(如Flickr)中仅存在噪声且不完整的图像级标签这一常见情况下的图像解析挑战。
- 通过利用易于获取的图像级标签,消除对昂贵且耗时的像素级标注的需求。
- 开发一种高效且抗噪声的算法,通过迭代稀疏学习优化初始区域标签,即使图像级标签不可靠也能适用。
- 证明尽管存在噪声,图像级标签仍可作为图像解析任务中像素级监督的有效替代方案。
提出的方法
- 使用Blobworld方法将所有输入图像过分割为区域,以生成候选物体部分集合。
- 基于区域与物体类别之间的兼容性,采用基于标签传播的策略,从图像级标签推断初始区域级标签。
- 通过L1-最小化将区域标签的优化问题建模为弱监督稀疏学习问题,以抑制噪声。
- 应用基于L1-正则化优化的高效迭代算法,联合实现区域标签的稀疏性与一致性。
- 整合关于物体类别和空间一致性的先验知识,以指导标签平滑化并提升鲁棒性。
- 采用两阶段优化策略:(1) 从图像标签初始分配标签,(2) 通过稀疏编码迭代优化标签。
实验结果
研究问题
- RQ1即使存在噪声或不完整,图像级标签是否可有效用于训练高性能图像解析系统,而无需像素级标注?
- RQ2在图像解析过程中,如何系统性地减少图像级标签中的噪声,以提升分割精度?
- RQ3当仅提供图像级监督时,弱监督稀疏学习框架在多大程度上优于现有方法?
- RQ4是否可能仅使用噪声图像级标签而无需任何像素级标签,实现与全监督方法相当的性能?
主要发现
- 所提出的WSSL方法在MSRC和VOC2007基准数据集上均达到最先进性能,即使图像级标签被注入高达75%的噪声。
- 在VOC2007数据集上,WSSL方法在噪声图像级标签设置下优于现有最先进方法,包括全监督方法。
- 在VOC2007数据集上,使用75%噪声标签时,WSSL方法实现了47%的平均交并比(mIoU),显著优于相同条件下的基线方法。
- 该算法在VOC2007数据集(15,000个区域)上仅需40秒运行时间,是同类方法中最快,而其他方法耗时47至145秒。
- 在两个数据集上约一半的物体类别中,WSSL方法实现了最佳性能,表明其具备强大的类别特异性泛化能力。
- 结果表明,尽管存在噪声,图像级标签在真实世界图像解析应用中可有效替代像素级标签。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。