[论文解读] MaskGAN: Towards Diverse and Interactive Facial Image Manipulation
MaskGAN 通过将语义掩码作为中间表示,实现多样化且可交互的面部图像操控,结合 Dense Mapping Network 和 Editing Behavior Simulated Training,并提供新的数据集 CelebAMask-HQ。
Facial image manipulation has achieved great progress in recent years. However, previous methods either operate on a predefined set of face attributes or leave users little freedom to interactively manipulate images. To overcome these drawbacks, we propose a novel framework termed MaskGAN, enabling diverse and interactive face manipulation. Our key insight is that semantic masks serve as a suitable intermediate representation for flexible face manipulation with fidelity preservation. MaskGAN has two main components: 1) Dense Mapping Network (DMN) and 2) Editing Behavior Simulated Training (EBST). Specifically, DMN learns style mapping between a free-form user modified mask and a target image, enabling diverse generation results. EBST models the user editing behavior on the source mask, making the overall framework more robust to various manipulated inputs. Specifically, it introduces dual-editing consistency as the auxiliary supervision signal. To facilitate extensive studies, we construct a large-scale high-resolution face dataset with fine-grained mask annotations named CelebAMask-HQ. MaskGAN is comprehensively evaluated on two challenging tasks: attribute transfer and style copy, demonstrating superior performance over other state-of-the-art methods. The code, models, and dataset are available at https://github.com/switchablenorms/CelebAMask-HQ.
研究动机与目标
- 通过语义掩码作为操控媒介,实现多样化且可交互的面部操控。
- 从目标图像和掩码到用户修改掩码的鲁棒风格映射学习。
- 建模用户编辑行为以提升推理时对掩码变化的鲁棒性。
- 提供用于面部编辑研究的大规模高分辨率掩码标注数据集。
提出的方法
- Dense Mapping Network (DMN) 结合 Spatial-Aware Style Encoder,使用 AdaIN 将目标图像和掩码中的空间感风格传递到生成输出。
- MaskVAE,建模面部结构先验的流形并实现平滑的掩码插值。
- Alpha Blender 学习 alpha 混合,以在多个编辑掩码之间维持操控一致性。
- Editing Behavior Simulated Training (EBST) 通过创建 inter/out 掩码来模拟用户编辑,并对 DMN 和 Blender 进行优化,以实现双编辑一致性。
- 采用对抗、特征匹配和感知损失的多目标学习,以确保真实感和保真度。
实验结果
研究问题
- RQ1语义掩码是否可以作为多样化面部操控的灵活中间表示,同时保留身份信息?
- RQ2模型如何学习在目标图像和用户修改的掩码之间实现鲁棒的风格迁移,以支持交互式编辑?
- RQ3在训练过程中模拟用户编辑行为是否能提高推理时对掩码变化的鲁棒性?
- RQ4所提出数据集 CelebAMask-HQ 对高分辨率掩码基础的人脸编辑研究有何影响?
主要发现
- MaskGAN 在属性转移和风格复制方面表现合理,相对于基线在分割和属性保留方面具有竞争力或更优。
- Spatial-Aware Style Encoder 通过以目标掩码结构为条件实现更好的风格转移,减少来自用户修改掩码的偏差。
- EBST 提升对掩码变化的鲁棒性并在交互编辑中增强身份保留。
- MaskGAN 在高分辨率(512x512)的人脸编辑任务中表现强劲,并从 CelebAMask-HQ 数据集获益。
- Editing Behavior Simulation 与 dual-editing 一致性损失有助于在交互输入下实现更可靠的掩码到图像操控。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。