[论文解读] W-Net: A Deep Model for Fully Unsupervised Image Segmentation
W-Net 将两个 U-Net 风格的全卷积网络组合成一个用于无监督图像分割的编码器-解码器,采用软归一化割损失和重构损失进行训练,随后进行 CRF 平滑和分层合并。在没有标注数据的情况下,其在 BSDS 上的表现具竞争力。
While significant attention has been recently focused on designing supervised deep semantic segmentation algorithms for vision tasks, there are many domains in which sufficient supervised pixel-level labels are difficult to obtain. In this paper, we revisit the problem of purely unsupervised image segmentation and propose a novel deep architecture for this problem. We borrow recent ideas from supervised semantic segmentation methods, in particular by concatenating two fully convolutional networks together into an autoencoder--one for encoding and one for decoding. The encoding layer produces a k-way pixelwise prediction, and both the reconstruction error of the autoencoder as well as the normalized cut produced by the encoder are jointly minimized during training. When combined with suitable postprocessing involving conditional random field smoothing and hierarchical segmentation, our resulting algorithm achieves impressive results on the benchmark Berkeley Segmentation Data Set, outperforming a number of competing methods.
研究动机与目标
- 在像素级标签稀缺的领域推动无监督图像分割。
- 提出一种深度编码-解码架构(W-Net),在无监督条件下实现密集的k路像素级分割。
- 联合优化对编码器输出的软归一化割损失和自编码器的重构损失。
- 通过后处理来提高分割质量:全连接CRF平滑和分层合并。
提出的方法
- 串联的两个FCN构成自编码器:编码器(U_Enc)输出一个K路像素级软分割,解码器(U_Dec)从编码中重构输入。
- 在编码器输出上最小化可微的软Ncut损失(J_soft-Ncut),以促进分割内相似性和分割间非相似性。
- 重构损失(J_reconstr)最小化输入 X 与编码重构图像之间的差异。
- 训练交替进行:先更新 U_Enc 以最小化 J_soft-Ncut,然后同时更新 U_Enc 和 U_Dec 以最小化 J_reconstr。
- 在大多数模块中使用深度可分离卷积以提高参数效率;网络为全卷积结构(无全连接层)。
- 后处理使用全连接CRF来锐化边界,以及基于UCM的分层合并以产生最终分割。
实验结果
研究问题
- RQ1一个完全无监督的深度架构是否能够在没有标注数据的情况下产生具有竞争力的像素级图像分割?
- RQ2将编码器派生的软分割与重构目标耦合,是否会产生与输入结构对齐的分割?
- RQ3后处理步骤(CRF平滑和分层合并)对完全无监督分割有何益处?
- RQ4相较于经典方法,W-Net 在 BSDS300/BSDS500 等标准无监督分割基准上的表现如何?
主要发现
| 方法 | SC | PRI | VI | ODS | OIS |
|---|---|---|---|---|---|
| W-Net (ours) BSDS300 | 0.58 | 0.62 | 0.81 | 0.84 | 1.71 |
| W-Net (ours) BSDS500 | 0.57 | 0.62 | 0.81 | 0.84 | 1.76 |
- W-Net 在 BSDS300/BSDS500 上相较于经典无监督方法取得了具竞争力的分数。
- 在训练中包含 soft-Ncut 会带来更连贯的分割,但以牺牲部分重构质量为代价。
- 通过 CRF 平滑和分层合并的后处理,最终分割质量(ODS/OIS)优于原始 W-Net 输出。
- 在 BSDS 基准上,W-Net 在某些指标上接近人类水平,并超过了若干经典方法。
- 无监督训练使用如 PASCAL VOC2012 等数据集进行表示学习,评估仅基于 BSDS 真值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。