[论文解读] 3D GAN Inversion for Controllable Portrait Image Animation
本文提出一种通过对预训练的3D GAN (EG3D) 进行逆向并结合3DMM 基于表达控制的方法来实现肖像图像的动画与编辑,从而实现多视角一致的姿态、表情和属性编辑,以及视频再现。
Millions of images of human faces are captured every single day; but these photographs portray the likeness of an individual with a fixed pose, expression, and appearance. Portrait image animation enables the post-capture adjustment of these attributes from a single image while maintaining a photorealistic reconstruction of the subject's likeness or identity. Still, current methods for portrait image animation are typically based on 2D warping operations or manipulations of a 2D generative adversarial network (GAN) and lack explicit mechanisms to enforce multi-view consistency. Thus these methods may significantly alter the identity of the subject, especially when the viewpoint relative to the camera is changed. In this work, we leverage newly developed 3D GANs, which allow explicit control over the pose of the image subject with multi-view consistency. We propose a supervision strategy to flexibly manipulate expressions with 3D morphable models, and we show that the proposed method also supports editing appearance attributes, such as age or hairstyle, by interpolating within the latent space of the GAN. The proposed technique for portrait image animation outperforms previous methods in terms of image quality, identity preservation, and pose transfer while also supporting attribute editing.
研究动机与目标
- 推动肖像图像动画,在跨视角的同时保持身份识别性,并允许姿态和表情编辑。
- 利用具备3D感知的GAN(EG3D)及基于3DMM的监督,进行可控的表情编辑。
- 通过潜在空间操作实现外观属性编辑(如年龄、发型、性别)。
- 提供用于静态图像动画以及基于视频的肖像再现的管线。
- 通过GAN逆向和定向微调来处理遮挡和修补。
提出的方法
- 使用DECA估计并将目标的3DMM表达转移到源图像。
- 通过优化潜在码w来重建表达已编辑区域,进行3D GAN逆向,结合基于掩码的损失。
- 在逆向后对GAN生成器进行微调,以更好地匹配非人脸区域,同时保持嘴部的修补。
- 通过将EG3D模型以目标姿态参数条件化,在目标姿势下渲染编辑后的肖像。
- 通过训练StyleFlow将潜在码映射到用于3D GAN的属性修改码来实现属性编辑,使得如年龄、发型、性别等编辑成为可能。
实验结果
研究问题
- RQ1是否可以通过显式的3DMM-based 表情与姿态编辑,结合3D GAN逆向,实现高身份保留的多视角一致肖像动画?
- RQ2将表达已编辑的图像嵌入到3D GAN潜在空间中,是否能实现跨视图的真实感修补与姿态渲染?
- RQ3是否可以通过潜在空间操作,将语义属性编辑(年龄、发型、性别)整合到动画管线中?
- RQ4在图像质量、身份保留和姿态一致性方面,基于3D GAN的方法与2D-GAN和3DMM-baseline相比有何差异?
- RQ5该方法是否可扩展用于基于视频的肖像再现并具备时序一致性?
主要发现
| Method | FID ↓ | ID ↑ | APD ↓ | AED ↓ |
|---|---|---|---|---|
| PIRenderer (w/o eyes, w/o pose) | 53.916 | - | 0.250 | 0.437 |
| PIRenderer (w/o pose) | 53.959 | - | 0.247 | 0.386 |
| PIRenderer (w/o eyes) | 63.844 | 0.694 | 0.039 | 0.424 |
| PIRenderer | 64.379 | 0.700 | 0.040 | 0.373 |
| 2D GAN (w/o pose) | 17.812 | - | 0.246 | 0.434 |
| 3D GAN (w/o pose) | 16.504 | - | 0.246 | 0.433 |
| 3D GAN | 31.176 | 0.733 | 0.030 | 0.433 |
- 3D GAN逆向管线在身份保留和姿态一致性方面比2D-GAN基线和PIRenderer具有更高表现。
- 该方法实现了显式的姿态控制与多视角一致性,同时保持受试者身份不变。
- 通过潜在空间操作实现属性编辑(年龄、发型、性别),并整合到动画管线中。
- 定量结果显示相较于基线,3D GAN变体在FID、身份一致性和姿态对齐指标上有利。
- 该方法支持基于视频的再现,配合平滑的姿态估计以减少抖动,并在遮挡修补方面保持真实感。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。