QUICK REVIEW

[论文解读] Landmark Assisted CycleGAN for Cartoon Face Generation

Ruizheng Wu, Xiaodong Gu|arXiv (Cornell University)|Jul 2, 2019

Generative Adversarial Networks and Image Synthesis参考文献 38被引用 29

一句话总结

本文提出了一种名为 Landmark Assisted CycleGAN 的新型图像到图像翻译框架，利用面部关键点在无配对训练数据下强制实现真实人脸与卡通人脸域之间的结构一致性。通过引入关键点一致性损失以及由关键点引导的局部/全局判别器，该方法生成了保真人脸身份与面部结构的高保真度卡通人脸，在动漫人脸数据集上实现了 1988.50 的 Fréchet Inception Distance (FID)，性能达到当前最先进水平，并在身份保留与真实感方面获得更高的用户偏好度。

ABSTRACT

In this paper, we are interested in generating an cartoon face of a person by using unpaired training data between real faces and cartoon ones. A major challenge of this task is that the structures of real and cartoon faces are in two different domains, whose appearance differs greatly from each other. Without explicit correspondence, it is difficult to generate a high quality cartoon face that captures the essential facial features of a person. In order to solve this problem, we propose landmark assisted CycleGAN, which utilizes face landmarks to define landmark consistency loss and to guide the training of local discriminator in CycleGAN. To enforce structural consistency in landmarks, we utilize the conditional generator and discriminator. Our approach is capable to generate high-quality cartoon faces even indistinguishable from those drawn by artists and largely improves state-of-the-art.

研究动机与目标

解决在训练数据无配对且域间几何结构显著不同时，从真实人脸生成高质量卡通人脸的挑战。
通过引入基于面部关键点的显式空间约束，克服标准 CycleGAN 中的结构失真问题。
在无需真实-卡通图像配对数据的前提下，提升卡通人脸生成中的身份保留与视觉合理性。
构建一个全新的大规模数据集，包含 17,920 幅动漫风格和 2,125 幅 bitmoji 风格图像，每幅图像均标注了面部关键点，用于训练与评估。

提出的方法

提出一种关键点一致性损失，强制真实人脸与生成的卡通人脸之间面部关键点的几何对应关系。
采用条件生成器与判别器，联合使用图像与关键点输入，以在翻译过程中提升结构对齐效果。
设计一个全局判别器，利用关键点来强制跨域整体面部结构的一致性。
引入聚焦于关键面部区域（眼睛、鼻子、嘴巴）的局部判别器，通过关键点位置进行引导，以增强细节保真度。
在 CycleGAN 框架基础上，结合循环一致性损失，并通过基于关键点的监督增强训练稳定性，减少伪影。
在新数据集中对真实与卡通图像的面部关键点进行标注，以实现无需图像配准的监督。

实验结果

研究问题

RQ1面部关键点能否有效减少真实人脸与卡通人脸之间无配对图像翻译中的结构错位？
RQ2与标准 CycleGAN 相比，基于关键点引导的监督在卡通人脸生成中如何提升身份保留与视觉质量？
RQ3聚焦于关键点定义区域的局部判别器在多大程度上提升了生成卡通人脸的真实感？
RQ4关键点一致性损失在减少几何伪影与提升循环一致性方面有何影响？
RQ5所提方法在无配对卡通人脸生成任务中，与当前最先进方法相比，在定量与定性指标上表现如何？

主要发现

所提方法在动漫人脸数据集上实现了 1988.50 的 Fréchet Inception Distance (FID)，优于 CycleGAN (2398.16) 与 MUNIT (2749.46)，表明其生成结果与真实卡通人脸的分布相似性更高。
在用户研究中，该方法在 bitmoji 风格人脸的身份保留与整体质量方面，获得了最高的 top-1 与 top-3 偏好率（分别为 77% 与 42%）。
消融实验表明，若移除局部判别器，FID 上升至 1993.83，证实其对视觉质量的贡献。
关键点一致性损失显著减少了结构伪影，并提升了面部特征对齐效果，即使在无配对训练数据的情况下亦然。
该方法生成的卡通人脸在视觉上与艺术家手绘图像难以区分，在定量指标与用户偏好方面均优于现有方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。