QUICK REVIEW

[论文解读] Face Transfer with Generative Adversarial Network

Runze Xu, Zhiming Zhou|arXiv (Cornell University)|Oct 17, 2017

Face recognition and analysis参考文献 4被引用 33

一句话总结

本文提出了一种基于改进CycleGAN与双判别器的端到端人脸迁移方法——通过同时具备大感受野和小感受野的判别器，生成高质量、逼真的目标人脸图像，适用于未见过的头部姿态和面部表情。通过结合大感受野判别器提供的全局一致性与小感受野判别器提供的局部细节保真度，该模型在人脸动画的图像到图像翻译任务中实现了更优的泛化能力与真实感。

ABSTRACT

Face transfer animates the facial performances of the character in the target video by a source actor. Traditional methods are typically based on face modeling. We propose an end-to-end face transfer method based on Generative Adversarial Network. Specifically, we leverage CycleGAN to generate the face image of the target character with the corresponding head pose and facial expression of the source. In order to improve the quality of generated videos, we adopt PatchGAN and explore the effect of different receptive field sizes on generated images.

研究动机与目标

开发一种端到端的人脸迁移系统，无需成对训练数据即可将源演员的面部表情与头部姿态映射到目标角色。
解决在目标数据集中未出现的头部姿态与面部表情下生成逼真人脸图像的挑战。
通过使用不同感受野尺寸的判别器解耦全局结构与局部纹理建模，提升图像质量与生成器的创造力。
将人脸迁移形式化为使用生成对抗网络（GAN）的图像到图像翻译任务。

提出的方法

利用CycleGAN学习源人脸图像与目标人脸图像之间的单对一双映射，实现在无成对数据情况下的身份保持翻译。
采用感受野大小不同的局部感受野判别器（97×97与42×42），以强化局部真实感与全局一致性。
将两个判别器——一个具有大感受野以保持全局结构，一个具有小感受野以保证局部纹理保真度——整合为多判别器架构。
调节两个判别器的对抗损失权重，以平衡生成图像中的全局连贯性与局部细节。
端到端训练生成器，以生成与源图像面部表情和头部姿态一致且外观逼真的目标人脸图像。
使用单一生成器网络，从对应源帧合成目标视频的每一帧，实现视频级别的重建。

实验结果

研究问题

RQ1基于GAN的方法是否能在无需成对训练数据或显式面部建模的情况下实现高质量、端到端的人脸迁移？
RQ2判别器感受野大小的选择如何影响生成人脸图像的真实感与泛化能力，特别是在未见头部姿态的情况下？
RQ3结合大感受野与小感受野的双判别器架构能否同时提升人脸迁移中的全局结构与局部纹理保真度？
RQ4生成器在多大程度上能泛化至生成目标训练集中未出现的面部表情与头部姿态的逼真图像？

主要发现

97+97判别器模型通过强制实现全局图像真实感，在生成未见头部姿态时导致人脸出现失真与噪声，这是由于严格的全局约束所致。
42+42判别器模型仅依赖局部块的真实感，生成的图像更清晰，但因缺乏全局结构约束而出现全局面部形变。
97+42双判别器模型实现了最佳平衡，生成的图像兼具全局连贯性与局部细节，显著减少了伪影与形变。
97+42模型成功生成了目标数据集中未见的头部姿态的逼真人脸图像，相较于单判别器基线模型展现出更强的泛化能力。
即使目标视频中不存在直接参考，该模型仍能生成合理的嘴部形状，但牙齿等精细细节仍不够完美。
消融实验确认，结合不同感受野的判别器可显著提升生成器生成多样化、逼真且一致的人脸图像的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。