[论文解读] Arc2Face: A Foundation Model for ID-Consistent Human Faces
Arc2Face 是一个以身份为条件的脸部基础模型,能够从 ArcFace 嵌入生成写真级人脸,在不使用文本提示的情况下通过对 WebFace42M 进行放大和对 Stable Diffusion 的微调实现更高的身份保持和多样性。
This paper presents Arc2Face, an identity-conditioned face foundation model, which, given the ArcFace embedding of a person, can generate diverse photo-realistic images with an unparalleled degree of face similarity than existing models. Despite previous attempts to decode face recognition features into detailed images, we find that common high-resolution datasets (e.g. FFHQ) lack sufficient identities to reconstruct any subject. To that end, we meticulously upsample a significant portion of the WebFace42M database, the largest public dataset for face recognition (FR). Arc2Face builds upon a pretrained Stable Diffusion model, yet adapts it to the task of ID-to-face generation, conditioned solely on ID vectors. Deviating from recent works that combine ID with text embeddings for zero-shot personalization of text-to-image models, we emphasize on the compactness of FR features, which can fully capture the essence of the human face, as opposed to hand-crafted prompts. Crucially, text-augmented models struggle to decouple identity and text, usually necessitating some description of the given face to achieve satisfactory similarity. Arc2Face, however, only needs the discriminative features of ArcFace to guide the generation, offering a robust prior for a plethora of tasks where ID consistency is of paramount importance. As an example, we train a FR model on synthetic images from our model and achieve superior performance to existing synthetic datasets.
研究动机与目标
- 促使在高分辨率下鲁棒的身份条件人脸生成的需求。
- 开发一个以 ArcFace 嵌入为唯一条件信号的基础模型。
- 证明大规模 FR 数据 (WebFace42M) 对训练 ID 保留的生成模型至关重要。
- 显示模型在没有文本提示的情况下实现卓越的 ID 保真度和现实多样性。
提出的方法
- 通过微调的编码器将 ArcFace 向量投影到 CLIP 潜在空间,来对 Stable Diffusion 进行 ArcFace 条件化。
- 通过用 GFPGAN 将 WebFace42M 图像恢复到 448x448 并在 FFHQ 与 CelebA-HQ 上微调,构建一个大规模高质量训练数据集,输出至 512x512。
- 在 WebFace42M 的 2100 万张恢复图像上训练,随后在 FFHQ 与 CelebA-HQ 上使用标准 LD 框架微调。
- 使用一个简单的伪提示“photo of a <id> person”,将 <id> 代替为 ArcFace 嵌入以引导生成。
- 使用 ArcFace 余弦相似度来评估输入 ID 与生成脸之间的 ID 保真度,并用 LPIPS、表情/姿态距离和 FID 来评估多样性。
![Figure 1 : Given the ID-embedding from [ 14 ] , Arc2Face can generate high-quality images of any subject with compelling similarity. Using popular extensions, such as ControlNet [ 96 ] , we can explicitly control facial attributes such as the pose or expression.](https://ar5iv.labs.arxiv.org/html/2403.11641/assets/x1.png)
实验结果
研究问题
- RQ1仅靠 ID 嵌入(ArcFace)在不使用文本引导的情况下,是否足以在扩散模型中约束高分辨率人脸生成?
- RQ2在 Ultra 大规模、高分辨率 FR 数据 数据集上训练,如何影响身份保留和图像真实感?
- RQ3Arc2Face 与基于 CLIP 或文本的条件方法相比,在保持身份的同时实现多样性输出方面有何差异?
主要发现
| Method | LPIPS ↑ | Exp. (ℓ2) ↑ | Pose (ℓ2) ↑ | FID ↓ |
|---|---|---|---|---|
| Synth-500 FastComposer | 0.389 | 3.597 | 0.163 | 13.517 |
| AgeDB FastComposer | 0.487 | 4.678 | 0.225 | 31.736 |
| Synth-500 Photomaker | 0.410 | 3.920 | 0.167 | 13.295 |
| AgeDB Photomaker | 0.424 | 4.283 | 0.165 | 8.410 |
| Synth-500 InstantID | 0.386 | 3.733 | 0.059 | 22.859 |
| AgeDB InstantID | 0.437 | 4.569 | 0.082 | 18.598 |
| Synth-500 IPA-FaceID (SDXL) | 0.402 | 4.648 | 0.181 | 7.104 |
| AgeDB IPA-FaceID (SDXL) | 0.462 | 5.812 | 0.197 | 24.105 |
| Synth-500 IPA-FaceID-Plus | 0.320 | 2.706 | 0.150 | 14.880 |
| AgeDB IPA-FaceID-Plus | 0.384 | 3.518 | 0.194 | 11.817 |
| Synth-500 IPA-FaceID-Plusv2 | 0.356 | 3.147 | 0.185 | 9.752 |
| AgeDB IPA-FaceID-Plusv2 | 0.429 | 4.092 | 0.236 | 10.798 |
| Synth-500 Arc2Face (Ours) | 0.506 | 6.375 | 0.317 | 5.673 |
| AgeDB Arc2Face (Ours) | 0.508 | 5.966 | 0.273 | 6.628 |
- Arc2Face 实现了输入 ArcFace 嵌入与生成脸之间的高身份相似度,在身份保留方面优于基于 CLIP 的方法。
- 模型在没有文本提示的情况下,既具备强烈的身份保真度,又在姿态和表情方面提供显著多样性。
- 在 WebFace42M(上采样到高分辨率)上的训练显著比仅 FFHQ 更好地保持身份,强调了百万级 FR 数据的需要。
- Arc2Face 可以与 ControlNet 结合,通过 3DMM 推导的法线来控制姿态和表情,实现姿态/表情感知的合成。
- 在合成人脸数据实验中,Arc2Face 训练的 FR 模型在标准基准上(如 LFW、CFP-FP、CPLFW、AgeDB、CALFW)达到与之竞争甚至优于的验证准确率,当训练使用合成数据时,优于若干基线。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。