Skip to main content
QUICK REVIEW

[论文解读] Towards the Automatic Anime Characters Creation with Generative Adversarial Networks

Yanghua Jin, Jiakai Zhang|arXiv (Cornell University)|Aug 18, 2017
Human Motion and Animation参考文献 22被引用 135
一句话总结

本论文基于 DRAGAN 的 GAN,在干净的动漫头像数据集上进行训练,以自动生成高质量的动漫角色,并部署用于交互式角色设计的公开网页界面。

ABSTRACT

Automatic generation of facial images has been well studied after the Generative Adversarial Network (GAN) came out. There exists some attempts applying the GAN model to the problem of generating facial images of anime characters, but none of the existing work gives a promising result. In this work, we explore the training of GAN models specialized on an anime facial image dataset. We address the issue from both the data and the model aspect, by collecting a more clean, well-suited dataset and leverage proper, empirical application of DRAGAN. With quantitative analysis and case studies we demonstrate that our efforts lead to a stable and high-quality model. Moreover, to assist people with anime character design, we build a website (http://make.girls.moe) with our pre-trained model available online, which makes the model easily accessible to general public.

研究动机与目标

  • 使用干净、经过筛选的数据集创建一个高质量的动漫头像生成模型。
  • 使用 DRAGAN 和类似 SRResNet 的生成器稳定动漫风格图像的 GAN 训练。
  • 通过辅助分类器实现带条件的、属性驱动的图像生成。
  • 使用适用于动漫插图的 FID 对生成质量进行定量评估。
  • 提供易于访问的在线工具,推动动漫角色设计的普及。

提出的方法

  • 从 Getchu 构建一个干净的动漫头像数据集,框选框扩展 1.5 倍并经人工过滤以确保质量。
  • 使用预训练的 Illustration2Vec 模型为每张图像估计 34 个属性标签以引导条件化。
  • 训练一个基于 DRAGAN 的 GAN,具备类似 SRResNet 的生成器和一个 10 块的判别器。
  • 结合 34 维属性向量的条件生成,并在判别器中加入辅助分类器。
  • 使用梯度惩罚和测量损失来稳定训练并实现条件图像合成。
  • 使用基于 Illustration2vec 的 FID 指标以及属性控制的定性/精度分析进行评估。

实验结果

研究问题

  • RQ1一个干净、特定领域的动漫头像数据集是否能够实现稳定的高质量动漫角色 GAN 生成?
  • RQ2对估计属性进行条件化是否能够实现可控、逼真的动漫角色生成?
  • RQ3在该领域的动漫特定评估指标下,基于 DRAGAN 的方法与基线 GAN 相比如何?
  • RQ4一个从用户指定属性生成动漫脸的在线界面的实际性能如何?

主要发现

模型平均 FID最大 FID - 最小 FID
DCGAN Generator+DRAGAN5974.9685.63
我们的模型4607.56122.96
  • 在干净的 Getchu 派生数据集上训练的基于 DRAGAN 的模型能够产生稳定且更高质量的动漫脸。
  • 条件生成与 34 个属性相结合可以产生可控输出,但各属性的精度不同。
  • 在使用 Illustration2vec 特征评估时,模型的 FID 更低(4607.56)于基线(5974.96)。
  • 颜色属性比帽子、眼镜等复杂形状更容易学习,后者仍具挑战。
  • 一个公开网站 make.girls.moe 允许客户端在每张图像 6–7 秒内生成,使用较小的 SRResNet 基生成器以加快下载速度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。