QUICK REVIEW

[论文解读] SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

Wengling Chen, James Hays|arXiv (Cornell University)|Jan 9, 2018

Generative Adversarial Networks and Image Synthesis参考文献 47被引用 39

一句话总结

SketchyGAN 提出了一种基于 GAN 的端到端可训练模型，用于从人类绘制的草图生成逼真且多样的图像，涵盖 50 种物体类别。该方法引入了一种新型的掩码残差单元（MRU）模块以改善特征流动，并采用基于合成边缘图的数据增强技术，在 Inception Score 和逼真度方面优于先前方法。

ABSTRACT

Synthesizing realistic images from human drawn sketches is a challenging problem in computer graphics and vision. Existing approaches either need exact edge maps, or rely on retrieval of existing photographs. In this work, we propose a novel Generative Adversarial Network (GAN) approach that synthesizes plausible images from 50 categories including motorcycles, horses and couches. We demonstrate a data augmentation technique for sketches which is fully automatic, and we show that the augmented data is helpful to our task. We introduce a new network building block suitable for both the generator and discriminator which improves the information flow by injecting the input image at multiple scales. Compared to state-of-the-art image translation methods, our approach generates more realistic images and achieves significantly higher Inception Scores.

研究动机与目标

开发一种深度学习模型，无需依赖图像检索即可从人类绘制的草图合成逼真且多样的图像。
通过引入基于合成边缘图的数据增强技术，解决成对草图-照片训练数据稀缺的问题。
通过设计一种新型网络架构（MRU）提升跨尺度的信息流动，从而提高图像合成质量。
在保持输入草图忠实度与实现照片级真实感之间取得平衡，允许为获得自然图像质量而进行必要的调整。
在 50 种多样化的物体类别上展示最先进的草图到图像合成性能。

提出的方法

模型采用条件 GAN 框架，其中生成器以草图为输入并生成逼真图像，判别器则用于区分真实图像与生成图像。
提出一种新型的掩码残差单元（MRU），通过内部掩码动态控制信息流动，并从输入草图注入多尺度特征。
通过在训练过程中逐步调整边缘图对与草图对的比例，实现从边缘图到图像的合成向草图到图像的合成的渐进过渡。
引入额外的损失函数，包括 GAN 损失和 ACGAN 损失，以提升图像质量和多样性。
通过从 230 万张 Flickr 图像（涵盖 50 个类别）中合成边缘图，对数据进行增强，扩展了 Sketchy 数据集，增加了成对的边缘图与照片。
采用对抗损失、感知损失和身份损失的组合，实现端到端训练，以保持结构一致性和真实感。

实验结果

研究问题

RQ1基于 GAN 的模型是否能够无需依赖图像检索即可从草图生成多样化且逼真的图像？
RQ2如何有效增强有限的成对草图-照片数据，以提升草图到图像的合成性能？
RQ3像掩码残差单元（MRU）这样的新型网络架构是否能改善草图到图像转换中的特征流动与合成质量？
RQ4该模型在生成输出中，能在多大程度上平衡对输入草图的忠实度与照片级真实感？
RQ5所提出的方法在定量和定性上与现有的基于 GAN 和基于检索的草图到图像合成方法相比如何？

主要发现

SketchyGAN 的 Inception Score 显著高于当前最先进的图像翻译方法，表明其图像质量和多样性得到提升。
即使参数量相近，基于 MRU 的模型在视觉质量与 Inception Score 上也优于 ResNet 和 CRN 变体。
人工评估显示，SketchyGAN 在逼真度方面优于 pix2pix 变体，在逼真度比较中具有更高的选择率。
与基于检索的基线相比，SketchyGAN 对输入草图的忠实度更高，但低于 pix2pix（后者更精确地保留了输入边缘）。
同一输入草图可生成多种不同的逼真图像，表明模型具有良好的多样性。
使用合成边缘图的数据增强技术提升了模型的泛化能力与性能，尤其在低数据场景下表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。