[论文解读] Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis
论文介绍 CC-FPSE,通过使用深度可分离卷积,在空间条件的语义布局下预测空间变化的卷积核,加上特征金字塔语义嵌入判别器,在 Cityscapes、COCO-Stuff、ADE20K 上达到最新结果。
Semantic image synthesis aims at generating photorealistic images from semantic layouts. Previous approaches with conditional generative adversarial networks (GAN) show state-of-the-art performance on this task, which either feed the semantic label maps as inputs to the generator, or use them to modulate the activations in normalization layers via affine transformations. We argue that convolutional kernels in the generator should be aware of the distinct semantic labels at different locations when generating images. In order to better exploit the semantic layout for the image generator, we propose to predict convolutional kernels conditioned on the semantic label map to generate the intermediate feature maps from the noise maps and eventually generate the images. Moreover, we propose a feature pyramid semantics-embedding discriminator, which is more effective in enhancing fine details and semantic alignments between the generated images and the input semantic layouts than previous multi-scale discriminators. We achieve state-of-the-art results on both quantitative metrics and subjective evaluation on various semantic segmentation datasets, demonstrating the effectiveness of our approach.
研究动机与目标
- 促使在生成器卷积中明确使用语义布局,而不是简单输入或仿射调制。
- 提出一种轻量、基于布局条件的生成器,使用带有空间变化权重的深度可分离卷积。
- 引入一个特征金字塔语义嵌入判别器,以强制高保真细节和语义对齐。
- 展示在 Cityscapes、COCO-Stuff 和 ADE20K 上的最新量化和定性结果。
- 提供消融实验以验证条件卷积、权重预测和判别器设计的贡献。
提出的方法
- 利用带有特征金字塔的全局上下文感知权重预测网络,预测以语义布局为条件的空间变化卷积核。
- 将卷积分解为深度卷积(在每个位置预测权重)和逐点卷积,以使参数数量可控。
- 引入一个条件注意力机制,以控制生成器中的信息流。
- 开发一个特征金字塔判别器,将多尺度特征融合以增强纹理/边缘,同时通过一个语义嵌入模块保持语义对齐。
- 使用 hinge GAN 损失、感知损失和特征匹配损失进行训练,并可选加入风格/KL 项以实现多模态合成。
- 提供一个端到端的 CC-FPSE 生成器和一个 FPSE 判别器架构(包括一个语义补丁嵌入机制)。
实验结果
研究问题
- RQ1通过空间变化的卷积核对生成器卷积进行语义布局条件化,能否提高合成保真度和语义对齐?
- RQ2深度可分离条件化是否提供了一种可扩展的方式,在不使参数爆炸的情况下引入布局感知?
- RQ3与现有判别器相比,特征金字塔语义嵌入判别器是否在更好地强制实现高保真细节和与语义布局的一致性?
- RQ4对条件卷积、权重预测架构和判别器设计的消融对分割质量和真实感有何影响?
主要发现
| 数据集 | mIOU | Accu | FID |
|---|---|---|---|
| COCO-Stuff | 41.6 | 70.7 | 19.2 |
| Cityscapes | 65.5 | 82.3 | 54.3 |
| ADE20K | 43.7 | 82.9 | 31.7 |
- CC-FPSE 在 Cityscapes、COCO-Stuff 和 ADE20K 数据集上实现了最先进的结果,提升了图像保真度和语义对齐。
- 在 COCO-Stuff、Cityscapes 和 ADE20K 上,与如 SPADE 和 pix2pixHD 等方法相比,所提出的方法在 mIOU 和准确率上更高,FID 更低。
- 消融实验表明条件卷积优于基于 SPADE 的生成器,特征金字塔权重预测具有优势,语义嵌入判别器进一步改善对齐。
- 定性结果展示了更细的细节、纹理和更少的伪影,更好地遵循输入语义布局。
- 人类感知评估显示相较于 SPADE,在 Cityscapes(55%)、COCO-Stuff(76%)和 ADE20K(61%)中,偏好 CC-FPSE 生成的图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。