[论文解读] DiffFace: Diffusion-based Face Swapping with Facial Guidance
DiffFace 引入基于扩散模型的脸部交换框架,具有 ID 条件、来自预训练专家的面部引导,以及目标保留的融合,在转移源身份的同时保留目标属性且无需重新训练。
In this paper, we propose a diffusion-based face swapping framework for the first time, called DiffFace, composed of training ID conditional DDPM, sampling with facial guidance, and a target-preserving blending. In specific, in the training process, the ID conditional DDPM is trained to generate face images with the desired identity. In the sampling process, we use the off-the-shelf facial expert models to make the model transfer source identity while preserving target attributes faithfully. During this process, to preserve the background of the target image and obtain the desired face swapping result, we additionally propose a target-preserving blending strategy. It helps our model to keep the attributes of the target face from noise while transferring the source facial identity. In addition, without any re-training, our model can flexibly apply additional facial guidance and adaptively control the ID-attributes trade-off to achieve the desired results. To the best of our knowledge, this is the first approach that applies the diffusion model in face swapping task. Compared with previous GAN-based approaches, by taking advantage of the diffusion model for the face swapping task, DiffFace achieves better benefits such as training stability, high fidelity, diversity of the samples, and controllability. Extensive experiments show that our DiffFace is comparable or superior to the state-of-the-art methods on several standard face swapping benchmarks.
研究动机与目标
- 推动稳健且高保真的脸部交换,在转移源身份的同时保留目标属性。
- 利用扩散模型实现稳定训练和可控的身份引导合成。
- 在采样阶段加入外部面部专家引导(身份、解析、注视),无需重新训练。
- 开发目标保留的混合策略,以保持目标背景和结构。
提出的方法
- 训练一个带有身份条件的 DDPM,使生成的图像具有源身份。
- 通过身份嵌入和身份相似性损失将身份特征引入扩散过程。
- 在采样阶段使用预训练专家(身份嵌入器、面部解析器、注视估计器)应用面部引导,以在转移身份的同时保留属性。
- 使用逐步增加掩码强度的目标保留混合策略,在交换过程中保留目标背景和结构。
- 在测试时提供可控的身份-属性权衡,而无需重新训练。
- 利用在扩散步骤中演化的目标保留混合掩码 M_t,将交换图像与目标图像混合。

实验结果
研究问题
- RQ1是否可以对扩散模型进行条件化,使其在脸部交换中可靠地转移源身份,同时保留目标属性?
- RQ2外部面部专家模型如何在不重新训练的情况下引导扩散采样来控制身份、语义和注视?
- RQ3目标保留混合是否在转移身份的同时维持目标背景,并且权衡是否可以自适应地控制?
- RQ4DiffFace 在 FF++ 上是否与目前最先进的基于 GAN 的脸部交换方法竞争力十足或更优?
- RQ5消融研究揭示 ID 条件 DDPM、面部引导和目标混合的贡献?
主要发现
| 模型 | Arc↑ | Arc-R↑ | Cos↑ | Cos-R↑ | 表情↓ | 姿态↓ | 形状↓ |
|---|---|---|---|---|---|---|---|
| SimSwap | 0.597 | 0.756 | 0.033 | 0.0005 | 0.0256 | 0.0005 | 0.0256 |
| HifiFace | 0.575 | 0.816 | 0.565 | 0.792 | 0.048 | 0.0007 | 0.0299 |
| InfoSwap | 0.570 | 0.841 | 0.052 | 0.0010 | 0.0360 | 0.0010 | 0.0360 |
| MegaFS | 0.343 | 0.553 | 0.046 | 0.0024 | 0.0299 | 0.0024 | 0.0299 |
| FaceShifter | 0.534 | 0.657 | 0.061 | 0.0013 | 0.0235 | 0.0013 | 0.0235 |
| DeepFakes | 0.443 | 0.686 | 0.078 | 0.0022 | 0.0314 | 0.0022 | 0.0314 |
| (Cos) DiffFace( hat{T}=40 ) | 0.620 | 0.859 | - | - | 0.044 | 0.0009 | 0.0269 |
| (Arc) DiffFace( hat{T}=40 ) | - | - | 0.602 | 0.816 | 0.043 | 0.0008 | 0.0283 |
| (Cos) DiffFace( hat{T}=50 ) | 0.634 | 0.888 | - | - | 0.050 | 0.0011 | 0.0303 |
| (Arc) DiffFace( hat{T}=50 ) | - | - | 0.603 | 0.816 | 0.049 | 0.0009 | 0.0311 |
- DiffFace 在身份相似度分数(Arc↑、Arc-R↑、Cos↑、Cos-R↑)方面达到最高,并且在移除目标身份方面优于列出的基线。
- 基于扩散的方法在身份与属性控制方面具有鲁棒性,在关键指标上超过 FF++ 上的 GAN 方法。
- 消融研究显示 ID 条件 DDPM 与身份引导对于强烈的身份转移是必不可少的;目标保留混合使身份与目标结构之间的权衡可控。
- 注视与语义引导有助于在交换过程中保留目标注视与面部结构。
- 身份与形状之间的权衡可以通过调整混合时间参数 hat{T} 和引导权重来调节。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。