[논문 리뷰] Arc2Face: A Foundation Model for ID-Consistent Human Faces
Arc2Face는 ArcFace 임베딩에서 얼굴 사진 실사를 생성하는 아이덴티티 조건부 얼굴 기초 모델로, WebFace42M를 업샘플링하고 Stable Diffusion을 미세 조정하여 텍스트 프롬프트 없이도 우수한 아이덴티티 보존성과 다양성을 달성한다.
This paper presents Arc2Face, an identity-conditioned face foundation model, which, given the ArcFace embedding of a person, can generate diverse photo-realistic images with an unparalleled degree of face similarity than existing models. Despite previous attempts to decode face recognition features into detailed images, we find that common high-resolution datasets (e.g. FFHQ) lack sufficient identities to reconstruct any subject. To that end, we meticulously upsample a significant portion of the WebFace42M database, the largest public dataset for face recognition (FR). Arc2Face builds upon a pretrained Stable Diffusion model, yet adapts it to the task of ID-to-face generation, conditioned solely on ID vectors. Deviating from recent works that combine ID with text embeddings for zero-shot personalization of text-to-image models, we emphasize on the compactness of FR features, which can fully capture the essence of the human face, as opposed to hand-crafted prompts. Crucially, text-augmented models struggle to decouple identity and text, usually necessitating some description of the given face to achieve satisfactory similarity. Arc2Face, however, only needs the discriminative features of ArcFace to guide the generation, offering a robust prior for a plethora of tasks where ID consistency is of paramount importance. As an example, we train a FR model on synthetic images from our model and achieve superior performance to existing synthetic datasets.
연구 동기 및 목표
- 고해상도에서 강력한 ID 조건부 얼굴 생성을 위한 필요성 제시.
- ArcFace 임베딩을 유일한 조건 신호로 사용하는 기초 모델 개발.
- 대규모 FR 데이터(WebFace42M)가 ID 보존 생성모델 학습에 필수임을 입증.
- 텍스트 프롬프트 없이도 고유한 아이덴티티 충실도와 현실적인 다양성을 달성함을 보임.
제안 방법
- ArcFace 벡터를 CLIP 잠재 공간으로 매핑하는 미세 조정된 인코더를 통해 Stable Diffusion을 ArcFace 임베딩으로 조건화.
- WebFace42M 이미지를 GFPGAN으로 복원하여 448x448로 업샘플링하고 FFHQ 및 CelebA-HQ에서 512x512 출력에 대해 미세 조정하여 대형 고품질 학습 데이터셋 구축.
- WebFace42M의 2100만 복원 이미지로 학습한 후 FFHQ 및 CelebA-HQ에서 표준 LD 프레임워크로 추가 미세 조정.
- '<id> 사람의 사진'이라는 간단한 의사 프롬프트를 사용하고 <id> 토큰을 ArcFace 임베딩으로 대체하여 생성을 유도.
- 입력 ID와 생성 얼굴 간의 ArcFace 코사인 유사도로 ID 충실도를 평가하고 LPIPS, 표정/포즈 거리, FID로 다양성을 평가.
![Figure 1 : Given the ID-embedding from [ 14 ] , Arc2Face can generate high-quality images of any subject with compelling similarity. Using popular extensions, such as ControlNet [ 96 ] , we can explicitly control facial attributes such as the pose or expression.](https://ar5iv.labs.arxiv.org/html/2403.11641/assets/x1.png)
실험 결과
연구 질문
- RQ1아이덴티티 임베딩만으로(ArcFace) 디퓨전 모델에서 텍스트 지침 없이 고해상도 얼굴 생성이 충분히 제약될 수 있는가?
- RQ2초대형 고해상도 FR 데이터셋에서의 학습이 ID 보존 및 이미지 현실성에 어떤 영향을 미치는가?
- RQ3Arc2Face가 CLIP 기반 또는 텍스트 기반 조건화 방법과 비교하여 아이덴티티를 보존하면서 다양한 출력을 가능하게 하는가?
주요 결과
| Method | LPIPS ↑ | Exp. (ℓ2) ↑ | Pose (ℓ2) ↑ | FID ↓ |
|---|---|---|---|---|
| Synth-500 FastComposer | 0.389 | 3.597 | 0.163 | 13.517 |
| AgeDB FastComposer | 0.487 | 4.678 | 0.225 | 31.736 |
| Synth-500 Photomaker | 0.410 | 3.920 | 0.167 | 13.295 |
| AgeDB Photomaker | 0.424 | 4.283 | 0.165 | 8.410 |
| Synth-500 InstantID | 0.386 | 3.733 | 0.059 | 22.859 |
| AgeDB InstantID | 0.437 | 4.569 | 0.082 | 18.598 |
| Synth-500 IPA-FaceID (SDXL) | 0.402 | 4.648 | 0.181 | 7.104 |
| AgeDB IPA-FaceID (SDXL) | 0.462 | 5.812 | 0.197 | 24.105 |
| Synth-500 IPA-FaceID-Plus | 0.320 | 2.706 | 0.150 | 14.880 |
| AgeDB IPA-FaceID-Plus | 0.384 | 3.518 | 0.194 | 11.817 |
| Synth-500 IPA-FaceID-Plusv2 | 0.356 | 3.147 | 0.185 | 9.752 |
| AgeDB IPA-FaceID-Plusv2 | 0.429 | 4.092 | 0.236 | 10.798 |
| Synth-500 Arc2Face (Ours) | 0.506 | 6.375 | 0.317 | 5.673 |
| AgeDB Arc2Face (Ours) | 0.508 | 5.966 | 0.273 | 6.628 |
- Arc2Face는 입력 ArcFace 임베딩과 생성 얼굴 간의 아이덴티티 유사도에서 높은 성능을 보이며, ID 보존 면에서 CLIP 기반 방법보다 우수한 성능을 보임.
- 모델은 텍스트 프롬프트 없이도 강력한 ID 충실도와 포즈 및 표정의 상당한 다양성을 동시에 제공함.
- WebFace42M를 고해상도로 업샘플링하여 학습한 결과 FFHQ 단독 학습보다 ID 보존이 크게 향상되며, 수백만 규모의 FR 데이터의 필요성을 강조함.
- Arc2Face는 ControlNet과 결합하여 3DMM 유도 법선으로 자세 및 표정을 제어하는 합성 제어가 가능함.
- 합성 얼굴 데이터 실험에서 Arc2Face가 학습된 FR 모델은 합성 데이터로 학습했을 때 LFW, CFP-FP, CPLFW, AgeDB, CALFW 등 표준 벤치마크에서 검증 정확도가 경쟁력 있거나 우수한 성과를 보임(다수의 베이스라인을 상회).

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.