[论文解读] Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis
介绍 CC-FPSE:一种使用布局条件的深度可分离卷积和特征金字塔语义嵌入判别器的生成器,从语义布局合成高保真、语义对齐的图像。 在 Cityscapes、COCO-Stuff 和 ADE20K 上达到最先进的性能。
Semantic image synthesis aims at generating photorealistic images from semantic layouts. Previous approaches with conditional generative adversarial networks (GAN) show state-of-the-art performance on this task, which either feed the semantic label maps as inputs to the generator, or use them to modulate the activations in normalization layers via affine transformations. We argue that convolutional kernels in the generator should be aware of the distinct semantic labels at different locations when generating images. In order to better exploit the semantic layout for the image generator, we propose to predict convolutional kernels conditioned on the semantic label map to generate the intermediate feature maps from the noise maps and eventually generate the images. Moreover, we propose a feature pyramid semantics-embedding discriminator, which is more effective in enhancing fine details and semantic alignments between the generated images and the input semantic layouts than previous multi-scale discriminators. We achieve state-of-the-art results on both quantitative metrics and subjective evaluation on various semantic segmentation datasets, demonstrating the effectiveness of our approach.
研究动机与目标
- 推动在生成器中更具表达性的语义布局应用,超越对激活的仿射调制。
- 提出从语义图预测的、布局条件的空间变化卷积核,以在每个位置控制生成。
- 通过特征金字塔语义嵌入判别器提高真实感和语义对齐。
- 在多个语义分割数据集上展示最先进的性能。
- 提供一个高效、可扩展的架构,利用深度可分离卷积来控制参数规模。
提出的方法
- 提出条件卷积块,其中空间变化的核从语义布局预测。
- 将卷积分解为深度卷积和逐点卷积以减小参数。
- 使用全局上下文感知的特征金字塔权重预测器来生成每个位置的卷积权重和注意力图。
- 引入特征金字塔语义嵌入判别器,在多个尺度上强化高保真细节和语义对齐。
- 使用 hinge 损失对抗目标,并辅以感知损失和风格/特征匹配损失进行训练。
实验结果
研究问题
- RQ1如何利用语义布局来条件化生成器中的卷积核,以实现更精确、局部特定的合成?
- RQ2从布局预测空间变化的深度卷积核是否比对特征的仿射调制方法在图像质量和语义对齐方面有所提升?
- RQ3单一的、基于特征金字塔的语义嵌入判别器是否比多尺度 PatchGANs 更好地强制实现细节保真度和布局一致性?
- RQ4使用 CC-FPSE 相较于 SPADE、pix2pixHD 等先前方法,在 Cityscapes、COCO-Stuff 和 ADE20K 上的定量提升是多少?
主要发现
| 数据集 | mIOU/Accuracy (mIOU) | mIOU/Accuracy (Accu) | FID | 数据集 2 mIOU | 数据集 2 Accu | 数据集 2 FID | 数据集 3 mIOU | 数据集 3 Accu | 数据集 3 FID | ||
|---|---|---|---|---|---|---|---|---|---|---|---|
| COCO-Stuff | 41.6 | 70.7 | 19.2 | Cityscapes | 65.5 | 82.3 | 54.3 | ADE20K | 43.7 | 82.9 | 31.7 |
- 所提出的 CC-FPSE 方法在 Cityscapes、COCO-Stuff、ADE20K 的各项指标(mIOU、准确率、FID)上达到最先进的结果。
- 带深度可分离参数化的条件卷积块实现了逐位置的布局控制,所需参数远少于全动态过滤器。
- 具备全局上下文感知的权重预测网络和特征金字塔通过引入长程上下文来改进权重预测。
- 特征金字塔语义嵌入判别器提高了生成图像与输入语义布局之间的对齐,带来更好的纹理/细节和语义一致性。
- 人类感知评估显示在 Cityscapes、COCO-Stuff、ADE20K 上对 CC-FPSE 的偏好高于 SPADE。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。