[论文解读] Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation
该论文提出SelectionGAN,一种用于引导图像到图像翻译的两阶段生成对抗网络,通过多尺度空间池化与多通道注意力选择来优化粗略生成结果。通过从注意力机制中学习不确定性图以实现更优的损失优化,该方法在人脸、手部、人体及街景翻译任务中均取得性能提升,在11个数据集上达到最先进水平。
We propose a novel model named Multi-Channel Attention Selection Generative Adversarial Network (SelectionGAN) for guided image-to-image translation, where we translate an input image into another while respecting an external semantic guidance. The proposed SelectionGAN explicitly utilizes the semantic guidance information and consists of two stages. In the first stage, the input image and the conditional semantic guidance are fed into a cycled semantic-guided generation network to produce initial coarse results. In the second stage, we refine the initial results by using the proposed multi-scale spatial pooling & channel selection module and the multi-channel attention selection module. Moreover, uncertainty maps automatically learned from attention maps are used to guide the pixel loss for better network optimization. Exhaustive experiments on four challenging guided image-to-image translation tasks (face, hand, body, and street view) demonstrate that our SelectionGAN is able to generate significantly better results than the state-of-the-art methods. Meanwhile, the proposed framework and modules are unified solutions and can be applied to solve other generation tasks such as semantic image synthesis. The code is available at https://github.com/Ha0Tang/SelectionGAN.
研究动机与目标
- 开发一种统一的、与应用无关的引导图像到图像翻译框架,使其能泛化于多种语义引导类型。
- 解决单阶段GAN在捕捉源域与目标域之间复杂结构关系方面的局限性,尤其在低重叠分布情况下。
- 通过从注意力机制中学习不确定性图,减轻噪声或不准确语义引导的影响。
- 通过级联生成架构中的多尺度空间池化与通道选择,增强特征表示能力。
- 将框架扩展至语义图像合成任务,证明其在引导翻译之外的广泛应用潜力。
提出的方法
- 该框架采用两阶段级联结构:首先,通过循环语义引导生成网络,利用图像与引导对生成粗略输出。
- 第二阶段,多尺度空间池化与通道选择模块在空间与通道维度上增强特征。
- 多通道注意力选择模块生成注意力图,对中间特征进行空间选择与融合,生成精细化输出。
- 从注意力图中提取的不确定性图用于指导像素损失,即使在引导不完美时也能提升优化效果。
- 模型通过对抗损失、循环一致性损失与注意力引导的重建损失进行联合训练,实现鲁棒优化。
- 通过将注意力模块与GauGAN集成,将该架构适配于语义图像合成任务,提升从布局到图像的生成质量。
实验结果
研究问题
- RQ1统一的两阶段GAN框架是否能在多种引导类型下超越特定任务的模型,在引导图像到图像翻译中表现更优?
- RQ2多尺度空间池化与多通道注意力选择在图像翻译中如何提升特征表示与图像细节?
- RQ3从注意力机制中提取的不确定性图在多大程度上可减轻噪声或不准确语义引导的负面影响?
- RQ4所提出的框架在语义图像合成任务(如从语义分割图生成真实图像)中是否具备良好泛化能力?
- RQ5与端到端的单阶段GAN相比,该级联设计在结构保真度与视觉质量方面表现如何?
主要发现
- SelectionGAN在四个引导图像到图像翻译任务(人脸、手部、人体与街景翻译)中均达到最先进性能,显著优于现有方法。
- 在DeepFashion数据集上,SelectionGAN++生成的图像比SelectionGAN更具真实感,尤其在头发、面部与脚部等细节生成方面表现更优。
- 在Cityscapes与ADE20K数据集的语义图像合成任务中,SelectionGAN与SelectionGAN++的mIoU与像素准确率均高于Pix2pixHD、CRN、SIMS与GauGAN。
- 在Cityscapes数据集上,SelectionGAN++的FID得分优于除SIMS外的所有基线模型,同时保持更优的分割准确率。
- 通过Amazon Mechanical Turk进行的用户研究显示,参与者更偏好SelectionGAN与SelectionGAN++生成图像的视觉保真度。
- 生成语义分割图的可视化结果表明,SelectionGAN生成的语义布局比GauGAN更准确,表明其具有更高的真实感与与真实标签的对齐度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。