[论文解读] Unsupervised Object Segmentation by Redrawing
ReDO 学会在无标签情况下通过强制一个生成过程来重绘对象来实现对图像的分割,其中对象可以就地重绘,由 GAN 判别器引导。相较于使用有限标注数据的监督基线,它能产生具有竞争力的分割掩膜。
Object segmentation is a crucial problem that is usually solved by using supervised learning approaches over very large datasets composed of both images and corresponding object masks. Since the masks have to be provided at pixel level, building such a dataset for any new domain can be very time-consuming. We present ReDO, a new model able to extract objects from images without any annotation in an unsupervised way. It relies on the idea that it should be possible to change the textures or colors of the objects without changing the overall distribution of the dataset. Following this assumption, our approach is based on an adversarial architecture where the generator is guided by an input sample: given an image, it extracts the object mask, then redraws a new object at the same location. The generator is controlled by a discriminator that ensures that the distribution of generated images is aligned to the original one. We experiment with this method on different datasets and demonstrate the good quality of extracted masks.
研究动机与目标
- 通过将场景建模为可以在不破坏真实感的前提下互换的独立区域来激发无监督分割。
- 提出 ReDO,一种对抗框架,其中掩膜提取器和各区域生成器学习通过重绘对象来重建真实图像。
- 施加约束以避免简单解(例如空掩膜或全在一个区域的掩膜)并在绘制区域中保留信息。
提出的方法
- 定义三步生成过程:区域的分量通过掩膜 M^k 组成、对象像素 V^k 独立绘制,以及最终图像 I 的组装。
- 通过带有判别器 D 的 GAN 目标学习 F(掩膜提取器)和 G_k(区域生成器),使其对真实数据分布保持保真度。
- 训练期间逐个区域进行重绘,以防止得到简单解并强制有意义的分割。
- 通过确保与区域相关的潜在向量 z_i 能从输出中恢复来实现信息守恒,类似 InfoGAN 的思想。
- 使用 hinge GAN 损失和对抗学习循环来优化 G_F(组合生成器)和 D。
- 架构:F 基于带金字塔池化的 PSPNet 风格编码器;G_k 和 D 的灵感来自 SAGAN,具有谱归一化和自注意力;G_k 中的条件批归一化用于编码纹理/颜色。
- 训练稳定性:通过超参数调整和偶尔重启来管理可能收敛到空掩膜的情况。
实验结果
研究问题
- RQ1完全无监督学习是否可以通过建模一个在保持分布的同时交换对象内容的生成过程来发现有意义的对象分割掩膜?
- RQ2掩膜提取器 F 和每个对象的生成器 G_k 在多大程度上学习以重绘对象,使重建图像与真实图像不可区分?
- RQ3为了防止简单解(如空掩膜或所有像素都在一个区域)并确保已绘制区域的信息得以保留,需要哪些约束?
- RQ4与仅有少量标注数据的监督基线相比,ReDO 在真实数据集(LFW、Flowers、CUB)上的表现如何,以及它是否能处理多类/未知对象?
- RQ5无标签的情况下,未标注的掩膜能否推广到组合数据集(如 Flowers+LFW)?
主要发现
| Dataset | Train Acc | Train IoU | Test Acc | Test IoU |
|---|---|---|---|---|
| LFW | - | - | 0.917 b1 0.002 | 0.781 b1 0.005 |
| CUB | 0.840 b1 0.012 | 0.423 b1 0.023 | 0.845 b1 0.012 | 0.426 b1 0.025 |
| Flowers* | 0.886 b1 0.008 | 0.780 b1 0.012 | 0.879 b1 0.008 | 0.764 b1 0.012 |
| Flowers+LFW | - | - | 0.856 | 0.691 |
- ReDO 生成非平凡的对象掩膜,能够在不同数据集上实现有意义的区域重绘。
- 在 LFW 上,ReDO 在测试集上达到 0.917 的准确率和 0.781 的 IoU,且训练中不使用标签。
- 在 CUB-200-2011 上,ReDO 达到 0.845 的测试准确率和 0.426 的 IoU,训练时分别是 0.840 的准确率和 0.423 的 IoU。
- 在 Flowers 上,ReDO 达到 0.879 的测试准确率和 0.764 的 IoU(Flowers*) ,训练时是 0.886 的准确率和 0.780 的 IoU。
- 在融合的 Flowers+LFW 数据集上,ReDO 在没有标签的情况下达到 0.856 的测试准确率和 0.691 的 IoU。
- 与具有有限标注数据的监督基线相比,无监督模型达到了可比的性能,并且可以达到在 LFW 上用约 50–60 个标注示例训练的监督模型的水平。
- 定性结果表明,推断出的掩膜与对象样区域对齐,且通过潜码 z_i 的作用实现的重绘对象保持目标纹理/颜色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。