[论文解读] Adversarial Scene Editing: Automatic Object Removal from Weak Supervision
两阶段、无交互对象移除模型,针对一般场景图像,使用弱监督训练,在GAN框架中结合形状先验的掩码生成与修补,以在没有 ground-truth 目标的情况下移除对象。
While great progress has been made recently in automatic image manipulation, it has been limited to object centric images like faces or structured scene datasets. In this work, we take a step towards general scene-level image editing by developing an automatic interaction-free object removal model. Our model learns to find and remove objects from general scene images using image-level labels and unpaired data in a generative adversarial network (GAN) framework. We achieve this with two key contributions: a two-stage editor architecture consisting of a mask generator and image in-painter that co-operate to remove objects, and a novel GAN based prior for the mask generator that allows us to flexibly incorporate knowledge about object shapes. We experimentally show on two datasets that our method effectively removes a wide variety of objects using weak supervision only
研究动机与目标
- 在没有边界框或掩码的情况下,实现对一般场景图像的自动对象移除。
- 利用图像级标签和未成对数据,通过GAN学习移除。
- 通过在两阶段架构中将掩码生成器与修补网络耦合,防止退化解。
- 通过Wasserstein GAN引入灵活的掩码先验(矩形或未成对的分割掩码),以促使掩码的一致性。
- 在COCO和徽标数据集上展示移除性能,结果可与完全监督的基线相比。
提出的方法
- 两阶段编辑器由掩码生成器 G_M 和图像修补网络 G_I 组成,协同工作以移除对象。
- 掩码生成器被训练以欺骗目标对象分类器,而修补网络学习填充掩码区域以产生逼真输出。
- 基于GAN的先验通过先验判别器 D_M 和先验损失 L_prior 强制掩码形状。
- 修补通过对随机块的重建损失、局部真实/伪造损失,以及图像质量损失(平滑 tv、风格 loss)来训练,以产生连贯的纹理。
- 交替优化 G_M 与 G_I,以防止退化解并实现共同适应。
- 重建与感知损失引导修补网络在移除目标对象的同时保持图像保真度。
实验结果
研究问题
- RQ1是否能够在没有真实目标图像或精确掩码的情况下,利用弱监督学习实现通用场景级对象移除?
- RQ2在混乱场景中,两阶段编辑器(掩码生成+修补)是否能提升移除质量,相较于单阶段生成方法?
- RQ3掩码先验(几何形状或未成对的分割掩码)如何提升移除掩码的一致性与准确性?
- RQ4弱监督移除在标准数据集上是否与如 Mask-RCNN 这类完全监督方法具备竞争力?
- RQ5该框架能否在弱监督下推广至移除非对象实体(如徽标)?
主要发现
- 两阶段编辑器(掩码生成器+修补)降低退化解,并在 COCO 上达到与完全监督分割器相当的移除效果。
- 通过Wasserstein距离引入灵活的掩码先验,提高掩码的一致性,减少错误移除,同时保持图像质量。
- 使用未成对的分割掩码或简单框架先验,能得到更准确的掩码和更好的图像质量,相较于无先验的设置。
- 在某些设定下,该方法在移除方面优于带 GT/Mask-RCNN 掩码的完全监督基线,并在使用膨胀 Mask-RCNN 掩码时接近相同性能。
- 该方法仅用图像级标签即可推广至徽标移除,展示了超越对象移除的更广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。