QUICK REVIEW

[论文解读] ReenactGAN: Learning to Reenact Faces via Boundary Transfer

Wayne Wu, Yunxuan Zhang|arXiv (Cornell University)|Jul 29, 2018

Face recognition and analysis参考文献 54被引用 18

一句话总结

ReenactGAN 提出了一种新颖的面部重演框架，通过边界潜在空间将源视频中的面部表情和动作转移到目标面部。通过将源面部编码为面部边界表征，利用针对目标的变换器进行适应，并通过针对目标的生成器解码，该方法在单张 GPU 上实现了 30 FPS 的实时、照片级真实感重演，且在面部表情转移方面具有高保真度，即使在大姿态和表情变化下也表现优异。

ABSTRACT

We present a novel learning-based framework for face reenactment. The proposed method, known as ReenactGAN, is capable of transferring facial movements and expressions from monocular video input of an arbitrary person to a target person. Instead of performing a direct transfer in the pixel space, which could result in structural artifacts, we first map the source face onto a boundary latent space. A transformer is subsequently used to adapt the boundary of source face to the boundary of target face. Finally, a target-specific decoder is used to generate the reenacted target face. Thanks to the effective and reliable boundary-based transfer, our method can perform photo-realistic face reenactment. In addition, ReenactGAN is appealing in that the whole reenactment process is purely feed-forward, and thus the reenactment process can run in real-time (30 FPS on one GTX 1080 GPU). Dataset and model will be publicly available at https://wywu.github.io/projects/ReenactGAN/ReenactGAN.html

研究动机与目标

解决在大姿态、表情和光照变化下实现照片级真实感面部重演的挑战。
克服直接像素空间 GAN 的局限性，后者在未见或极端面部条件下表现失败。
通过引入解耦的基于边界的潜在空间，解决无配对面部重演中的多对一映射问题。
通过纯前馈架构实现实时推理。
通过利用大规模面部关键点数据集，实现在无需配对源-目标数据的情况下实现鲁棒的表达转移。

提出的方法

使用深度编码器网络将源面部图像编码为潜在边界空间，利用面部关键点实现几何一致性。
引入针对目标的变换器网络，将源面部的边界表征适应为匹配目标的边界几何。
在 PCA 嵌入的边界空间中应用循环一致性损失，以在变换过程中保持结构保真度。
使用对抗性损失增强真实感，使用形状损失保持准确的面部轮廓对齐。
使用针对目标的解码器网络将适应后的边界表征解码为照片级真实感目标面部。
使用无配对的源-目标视频和大规模面部对齐数据集对边界数据进行监督，端到端训练整个框架。

实验结果

研究问题

RQ1基于边界的潜在空间是否能有效解耦面部身份与表情和动作，从而实现鲁棒的面部重演？
RQ2基于变换器的边界适应网络在多样化身份和未见面部表情下的泛化能力如何？
RQ3在处理大姿态和表情变化时，基于边界的迁移相较于直接像素空间 GAN 的性能优势有多大？
RQ4在无配对源-目标数据的情况下，能否有效训练多对一重演框架？
RQ5与 SOTA 方法如 Face2Face 相比，该方法在表达保真度方面表现如何，特别是在捕捉细微面部动作单元方面？

主要发现

ReenactGAN 在单张 GTX 1080 GPU 上实现了 30 FPS 的实时推理，支持实际部署。
定性对比显示，该方法在处理大面部运动和未见表情方面显著优于 CycleGAN。
对于 AU17（抬下巴），ReenactGAN 在源与重演面部动作单元响应之间实现了 92.5% 的相关系数（R²），优于 Face2Face 的 73.9%，表现出更优的表达保真度。
消融实验表明，结合循环损失和形状损失的边界变换器可显著减少模糊和纹理伪影，尤其在眼周和口周区域。
循环损失的引入提升了边界对齐度和结构一致性，尤其在面部轮廓精度方面提升最为显著。
该方法对未见身份具有良好的泛化能力，因为目标特定的解码器和变换器仅基于目标的边界数据进行训练，从而实现了单模型多源重演。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。