QUICK REVIEW

[论文解读] Photographic Image Synthesis with Cascaded Refinement Networks

Qifeng Chen, Vladlen Koltun|arXiv (Cornell University)|Jul 28, 2017

Generative Adversarial Networks and Image Synthesis参考文献 46被引用 80

一句话总结

本文提出 Cascaded Refinement Networks (CRN) 以从语义布局合成真实感图像，使用单个前馈模型并通过感知回归损失进行训练，具可扩展到 2 megapixels 且优于基于 GAN 的基线。

ABSTRACT

We present an approach to synthesizing photographic images conditioned on semantic layouts. Given a semantic label map, our approach produces an image with photographic appearance that conforms to the input layout. The approach thus functions as a rendering engine that takes a two-dimensional semantic specification of the scene and produces a corresponding photographic image. Unlike recent and contemporaneous work, our approach does not rely on adversarial training. We show that photographic images can be synthesized from semantic layouts by a single feedforward network with appropriate structure, trained end-to-end with a direct regression objective. The presented approach scales seamlessly to high resolutions; we demonstrate this by synthesizing photographic images at 2-megapixel resolution, the full resolution of our training data. Extensive perceptual experiments on datasets of outdoor and indoor scenes demonstrate that images synthesized by the presented approach are considerably more realistic than alternative approaches. The results are shown in the supplementary video at https://youtu.be/0fhUJT21-bs

研究动机与目标

开发一个模型，以逐像素语义布局为条件生成真实感图像。
避免对抗性训练，展示一个稳定的端到端回归方法。
在保持真实感的前提下，将图像合成扩展到高分辨率（高达 2 MP）。
通过人类感知研究将真实感与强基线进行对比评估。
探索给定语义布局的输出多样性。

提出的方法

提出 Cascaded Refinement Network (CRN)：在从 4x8 布局开始、跨越增加分辨率的一系列 refined 模块。
每个模块 M^i 接受下采样的布局 L 和上采样的 F^{i-1}，将它们拼接后在其分辨率上输出一个新的特征图。
使用 3x3 卷积、层归一化和 Leaky ReLU；最终输出是一个 1x1 投影到 3 个颜色通道。
使用感知（内容）损失端到端训练，其基于合成图像与参考图像之间的 VGG-19 激活差异： L_{I,L} = sum_l lambda_l || Phi_l(I) - Phi_l(g(L;theta)) ||_1。
通过使用来自多个 VGG 层的特征（conv1_2, conv2_2, conv3_2, conv4_2, conv5_2）来实现多尺度损失。
可选地通过输出 k 张图像并使用旨在提升多样性的损失来为每个语义类别选择最佳内容，从而扩展以生成多样化的输出。

实验结果

研究问题

RQ1单一前馈网络是否能够在不使用对抗训练的情况下，从语义布局重现真实感图像？
RQ2分级、多分辨率的架构是否能够在高分辨率下实现高保真度合成？
RQ3在感知真实感方面，CRN 相对于基于 GAN 或其他基线的表现如何？
RQ4该方法是否能够为同一语义布局生成多样化的输出？
RQ5感知（内容）损失对合成质量和真实感有何影响？

主要发现

在感知实验中，CRN 图像的真实感评分高于多个基线（包括以 Isola 等人为代表的基于 GAN 的方法）。
该方法可扩展到高分辨率（高达 2 百万像素）并实现端到端训练。
基于预训练网络（VGG-19）的感知损失引导合成为细节与全局结构兼具。
多样性损失可以为单一语义布局生成一组可行输出，使变量性在各语义类别间分布。
在时间受限的人类研究中，显示 CRN 在观看初期就接近真实图像，表明高度感知真实感。
在 Cityscapes 和 NYU 数据集上，CRN 在两两真实感判断中持续优于基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。