QUICK REVIEW

[论文解读] Weakly Supervised Semantic Segmentation using Web-Crawled Videos

Seunghoon Hong, Donghun Yeo|arXiv (Cornell University)|Jan 2, 2017

Advanced Image and Video Retrieval Techniques参考文献 35被引用 30

一句话总结

本文提出了一种弱监督语义分割方法，利用网络爬取的视频生成伪分割掩码，通过利用运动和时空线索，克服了模型仅关注判别性部分的局限性。通过在双分支DCNN框架中结合图像级标签与视频衍生的标注——使用图像分类生成注意力图，视频分割用于形状估计——该方法在PASCAL VOC上实现了58.7%的mIoU，达到当前最先进性能，优于依赖额外标注的方法。

ABSTRACT

We propose a novel algorithm for weakly supervised semantic segmentation based on image-level class labels only. In weakly supervised setting, it is commonly observed that trained model overly focuses on discriminative parts rather than the entire object area. Our goal is to overcome this limitation with no additional human intervention by retrieving videos relevant to target class labels from web repository, and generating segmentation labels from the retrieved videos to simulate strong supervision for semantic segmentation. During this process, we take advantage of image classification with discriminative localization technique to reject false alarms in retrieved videos and identify relevant spatio-temporal volumes within retrieved videos. Although the entire procedure does not require any additional supervision, the segmentation annotations obtained from videos are sufficiently strong to learn a model for semantic segmentation. The proposed algorithm substantially outperforms existing methods based on the same level of supervision and is even as competitive as the approaches relying on extra annotations.

研究动机与目标

解决弱监督语义分割中模型仅关注判别性部分而非完整物体的常见失败模式。
通过自动检索并利用网络视频作为强监督来源，消除对额外人工标注的需求。
通过利用视频中的时间动态和运动线索提升分割精度，同时通过基于图像的注意力图减少噪声。
开发一种统一的深度学习框架，联合利用图像与视频实现端到端的语义分割，无需额外监督。

提出的方法

使用类别标签作为搜索关键词检索网络视频，创建无需人工干预的弱标注视频集合。
在图像级标注图像上训练编码器网络，生成定位判别性物体部分的注意力图。
利用注意力图过滤无关视频帧，并识别时空感兴趣区域，降低时间与空间上的模糊性。
应用基于图的优化方法，结合运动、颜色与注意力线索对视频中的物体候选进行分割，生成伪分割掩码。
使用视频生成的掩码作为伪监督信号训练解码器网络，同时保持图像训练中固定的编码器。
在单一DCNN框架中整合图像与视频数据，其中图像数据稳定视频分割结果，视频数据提升边界定位精度。

实验结果

研究问题

RQ1网络爬取的视频能否有效用于生成高质量的伪分割掩码，以支持弱监督语义分割？
RQ2能否利用图像级标签减少自动检索视频中的噪声与模糊性，以提升分割性能？
RQ3与纯图像基的弱监督方法相比，结合视频中的时间与运动线索是否能提升分割精度？
RQ4仅使用图像级标签与网络视频训练的模型，能否实现与使用额外标注（如边界框或涂鸦）方法相媲美甚至更优的性能？

主要发现

所提方法在PASCAL VOC 2012验证集上达到58.7%的平均交并比（mIoU），显著优于仅使用图像级标签的先前弱监督方法。
该方法超越了如SEC与MCNN等同样使用视频的最先进方法，能够更准确地捕捉物体边界并覆盖更大的物体区域。
在YouTube-Object基准上，该方法在类别级分割中达到58.6% mIoU，在视频级分割中达到57.1% mIoU，优于使用低级线索的方法，甚至优于使用边界框监督的方法。
图像分类生成的注意力图显著减少了视频分割中的误报，通过过滤无关帧与区域实现。
该框架成功处理了遮挡、背景杂乱、多实例及运动模糊等具有挑战性的视频场景。
该方法表明，当与图像级监督结合时，网络爬取的视频可有效模拟强监督，实现与使用额外标注方法相当的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。