QUICK REVIEW

[论文解读] Spatially Controllable Image Synthesis with Internal Representation Collaging

Ryôhei Suzuki, Masanori Koyama|arXiv (Cornell University)|Nov 26, 2018

Generative Adversarial Networks and Image Synthesis参考文献 42被引用 34

一句话总结

本文提出了一种基于CNN的新型图像编辑方法，通过操纵中间特征表示，在微调后的GAN中实现空间可控的语义操作。利用空间条件批归一化（sCBN）和特征融合，用户可通过标签图或特征迁移对图像特定区域进行编辑，无需微调即可在合成图像和真实图像上实现高保真度、局部化的编辑效果。

ABSTRACT

We present a novel CNN-based image editing strategy that allows the user to change the semantic information of an image over an arbitrary region by manipulating the feature-space representation of the image in a trained GAN model. We will present two variants of our strategy: (1) spatial conditional batch normalization (sCBN), a type of conditional batch normalization with user-specifiable spatial weight maps, and (2) feature-blending, a method of directly modifying the intermediate features. Our methods can be used to edit both artificial image and real image, and they both can be used together with any GAN with conditional normalization layers. We will demonstrate the power of our method through experiments on various types of GANs trained on different datasets. Code will be available at https://github.com/pfnet-research/neural-collage.

研究动机与目标

在不微调的情况下，实现对预训练GAN中图像的细粒度、空间局部化语义编辑。
解决现有GAN编辑方法缺乏空间控制能力或需要显式定义特征的局限性。
提供一种即插即用的解决方案，兼容任何使用条件归一化层的GAN。
通过流形投影与特征空间操作相结合，实现对真实图像的编辑。
通过直观的用户指定空间图或源区域，实现逼真、多区域的编辑。

提出的方法

提出空间条件批归一化（sCBN），即条件批归一化的空间扩展，通过用户定义的空间权重图对特征变换进行条件控制。
采用特征融合方法，基于空间定义的混合比例，直接混合来自多个源图像的中间特征图。
将sCBN与特征融合联合使用，实现在单次前向传播中完成复杂、多区域的语义编辑。
利用流形投影将真实图像映射到预训练GAN的潜在空间，从而通过特征空间操作实现真实图像的编辑。
利用预训练GAN的内部特征表示进行编辑，无需额外训练或监督。
仅依赖预训练GAN的架构，特别是采用AdaIN或CBN层的模型，因此具有广泛的适用性。

实验结果

研究问题

RQ1我们能否仅通过预训练模型的内部特征表示，在GAN生成的图像中实现精确、局部化的语义编辑？
RQ2空间可变的条件归一化是否能够实现在单张图像中对多类别、多区域的语义编辑？
RQ3直接在特征空间中进行混合是否能够无显式标注地传输复杂、非类别特定的特征（如面部表情）？
RQ4在真实图像上，我们的方法与现有基于GAN的图像翻译模型相比，在保真度和真实感方面表现如何？
RQ5我们的方法在不微调的情况下，对多样化数据集和GAN架构的泛化能力如何？

主要发现

在猫到大猫的图像翻译任务中，我们的方法在ImageNet真实图像上的top-5分类错误率为7.8%，优于UNIT（14.8%）和MUNIT（26.0%）。
在猫到狗的图像翻译任务中，我们的方法top-5错误率为21.1%，显著低于MUNIT的55.4%和UNIT的N/A（受方法论限制）。
通过Amazon Mechanical Turk进行的人工评估显示，83.9%的参与者更倾向于我们的编辑结果而非UNIT在猫到大猫翻译中的结果，87.0%更倾向于我们的结果在狗到狗翻译中的表现。
在人类感知评估中，我们的方法在所有测试的翻译对中均被认为比MUNIT和UNIT更具照片级真实感，偏好率远超随机水平（50%）。
sCBN与特征融合的结合使得复杂编辑成为可能，例如图2所示，可同时改变狗的品种和面部表情。
该方法成功实现了100多个类别之间的多对多翻译，展示了其在简单域到域翻译之外的可扩展性与泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。