Skip to main content
QUICK REVIEW

[论文解读] Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation

Hao Tang, Dan Xu|arXiv (Cornell University)|Apr 15, 2019
Generative Adversarial Networks and Image Synthesis参考文献 54被引用 25
一句话总结

本文提出SelectionGAN,一种用于跨视角图像转换的两阶段生成对抗网络,通过级联语义引导和多通道注意力选择模块,从任意视角生成高保真、逼真的图像。通过基于注意力的特征选择和不确定性感知损失引导,对粗略输出进行优化,该模型在Dayton、CVUSA和Ego2Top数据集上实现了最先进性能,显著优于先前方法,在结构准确性和细节保留方面表现更优。

ABSTRACT

Cross-view image translation is challenging because it involves images with drastically different views and severe deformation. In this paper, we propose a novel approach named Multi-Channel Attention SelectionGAN (SelectionGAN) that makes it possible to generate images of natural scenes in arbitrary viewpoints, based on an image of the scene and a novel semantic map. The proposed SelectionGAN explicitly utilizes the semantic information and consists of two stages. In the first stage, the condition image and the target semantic map are fed into a cycled semantic-guided generation network to produce initial coarse results. In the second stage, we refine the initial results by using a multi-channel attention selection mechanism. Moreover, uncertainty maps automatically learned from attentions are used to guide the pixel loss for better network optimization. Extensive experiments on Dayton, CVUSA and Ego2Top datasets show that our model is able to generate significantly better results than the state-of-the-art methods. The source code, data and trained models are available at https://github.com/Ha0Tang/SelectionGAN.

研究动机与目标

  • 为解决在视图重叠极少且存在严重几何形变的场景下跨视角图像转换的挑战。
  • 通过语义图作为条件监督提升图像合成质量,尤其在真实语义标签不准确时。
  • 克服单阶段GAN在捕捉视角间复杂结构关系方面的局限性。
  • 通过基于粗到精的两阶段架构与注意力机制优化,提升细粒度细节生成能力。
  • 开发一种鲁棒的优化策略,以考虑弱监督语义标签中的不确定性。

提出的方法

  • 该方法采用两阶段框架:第一阶段使用循环语义引导生成网络,从源图像和目标语义图生成粗略图像和语义图预测。
  • 第二阶段应用多通道注意力选择模块,生成多个中间特征图,并利用学习到的注意力权重对它们进行空间选择与组合,形成优化输出。
  • 注意力图用于生成不确定性图,以指导像素重建损失,提升在噪声语义监督下的优化鲁棒性。
  • 在注意力选择步骤前,应用多尺度空间池化模块以增强特征表示。
  • 模型通过对抗损失、循环一致性损失和总变差正则化进行训练,以增强结构保真度和平滑性。
  • 通过条件化于参考图像和新型语义图,该框架支持任意跨视角转换,包括非双射视角对。

实验结果

研究问题

  • RQ1具有语义引导的两阶段、粗到精GAN架构是否能显著提升在视图重叠较低情况下的跨视角图像转换质量?
  • RQ2多通道注意力选择在优化中间特征图以提升图像细节生成方面是否有效?
  • RQ3从注意力机制中衍生的不确定性图是否能提升在语义标签不完美时的训练稳定性和性能?
  • RQ4通过循环一致性实现的级联语义引导是否能增强生成图像的结构一致性?
  • RQ5所提方法是否能泛化至配对的航拍-地面视角之外的任意跨视角转换?

主要发现

  • SelectionGAN在CVUSA、Dayton和Ego2Top数据集上达到最先进性能,所有指标上均优于Pix2pix、Zhai et al.、X-Fork和X-Seq,仅Inception Score除外。
  • 消融实验表明,使用多通道注意力选择模块可使SSIM提升4.67分(Baseline F vs. E),证实其在提升图像质量方面的有效性。
  • 使用不确定性图指导像素损失相比无此机制的基线模型,SD提升0.3205,PSNR提升3.1771。
  • 第一阶段的循环语义生成相比无语义基线,使SSIM、PSNR和SD分别提升8.19、3.1771和0.3205分,证明了语义监督的价值。
  • 定性结果表明,与基线相比,SelectionGAN生成的图像更清晰、更逼真,结构布局更合理,如道路、树木和建筑屋顶更清晰。
  • 该模型在Ego2Top数据集上成功实现了任意跨视角转换,仅使用一张参考图像和语义图即可生成一致且逼真的新视角图像。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。