[论文解读] Auto-painter: Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks
本文提出 Auto-painter,一种基于 cGAN 的模型,使用 U-Net 生成器和 PatchGAN 判别器将草图着色为卡通图像,此外还引入像素、特征和总变差损失,以及可选的颜色控制以符合用户偏好。
Recently, realistic image generation using deep neural networks has become a hot topic in machine learning and computer vision. Images can be generated at the pixel level by learning from a large collection of images. Learning to generate colorful cartoon images from black-and-white sketches is not only an interesting research problem, but also a potential application in digital entertainment. In this paper, we investigate the sketch-to-image synthesis problem by using conditional generative adversarial networks (cGAN). We propose the auto-painter model which can automatically generate compatible colors for a sketch. The new model is not only capable of painting hand-draw sketch with proper colors, but also allowing users to indicate preferred colors. Experimental results on two sketch datasets show that the auto-painter performs better that existing image-to-image methods.
研究动机与目标
- 让黑白草图自动着色为多彩卡通图像用于数字娱乐。
- 开发一个可控的草图到图像生成框架,使用条件 GAN。
- 在生成高质量颜色的同时保留草图边缘,通过多项损失函数。
- 使用户驱动的颜色控制成为可能,以定制生成的卡通风格。
提出的方法
- 使用一个以输入草图为条件的 U-Net 生成器和一个 PatchGAN 判别器的条件 GAN。
- 采用多项损失,结合对抗损失、L1 像素损失、基于 VGG 的特征损失以及总变差损失(L = wp Lp + wf Lf + wG LG + wtv Ltv)。
- 在解码阶段采用 U-Net 跳连策略以保留低层草图信息。
- 使用高分辨率(512x512)卡通草图-图像对进行训练,并使用 XDoG 将图像生成草图以用于监督。
- 通过在草图中引入颜色块来实现可选的颜色控制以引导着色。
- 以 pix2pix 基线进行对比评估并进行消融研究以评估 Lf 和 Ltv 的影响。
实验结果
研究问题
- RQ1cGAN 基于模型能否在保持边缘的前提下,将高分辨率的黑白卡通草图可靠地转换为有色卡通图像?
- RQ2相比标准 pix2pix,像素、特征和总变差等多项损失是否能提升颜色保真度和风格多样性?
- RQ3引入交互式颜色控制是否能在不损失一致性的前提下让用户驱动生成的卡通风格变化?
主要发现
| 方法 | n_like | n_dislike | pop_j | variance(pop_ij) | mean(pop_ij) |
|---|---|---|---|---|---|
| pix2pix [10] | 249 | 1147 | -1.524 | 1.319 | -1.549 |
| tv loss | 304 | 698 | -0.829 | 1.519 | -0.675 |
| feature loss | 687 | 219 | 1.140 | 1.110 | 1.227 |
| auto-painter | 960 | 136 | 1.948 | 0.888 | 1.873 |
- Auto-painter 在对55名志愿者的主观喜好评估中优于 pix2pix 基线。
- 在消融实验中,去除总变差损失导致背景消散,去除特征损失会模糊细节,且将所有损失结合能获得最佳人气和最小方差。
- 具有全部损失项的完整 Auto-painter 在测试配置中获得最高的人气分和最稳定的输出。
- 颜色控制块能够实现区域级颜色传播,并允许用户指定的颜色提示影响合成的卡通输出。
- 在两个数据集(Minions 和 Japanimation)上的训练表明该模型能够从草图生成高质量的彩色卡通。
- 系统每张图像大约在1秒内生成彩色卡通,便于交互式编辑工作流。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。