[논문 리뷰] Generative Face Completion
이 논문은 두 개의 적대적 판별자(로컬 및 글로벌)와 의미 파싱 손실을 포함하는 자동인코더 생성기를 사용하는 얼굴 보완에 대한 심층 생성 모델을 제시하여 얼굴의 누락 영역을 의미적으로 일관되고 사진 실감형으로 생성합니다.
In this paper, we propose an effective face completion algorithm using a deep generative model. Different from well-studied background completion, the face completion task is more challenging as it often requires to generate semantically new pixels for the missing key components (e.g., eyes and mouths) that contain large appearance variations. Unlike existing nonparametric algorithms that search for patches to synthesize, our algorithm directly generates contents for missing regions based on a neural network. The model is trained with a combination of a reconstruction loss, two adversarial losses and a semantic parsing loss, which ensures pixel faithfulness and local-global contents consistency. With extensive experimental results, we demonstrate qualitatively and quantitatively that our model is able to deal with a large area of missing pixels in arbitrary shapes and generate realistic face completion results.
연구 동기 및 목표
- 패치 기반 배경 채움 이상의 강건한 얼굴 보완을 동기화하여 누락된 얼굴 영역에 의미적으로 타당한 콘텐츠를 생성한다.
- 맥락에 조건화된 대형 불규칙 마스크를 채우기 위한 심층 자동인코더 기반 생성기를 개발한다.
- 현실감과 전역 일관성을 보장하기 위해 로컬 및 글로벌 적대적 손실을 함께 정규화한다.
- 얼굴 구조와 주변 맥락의 일치를 강제하기 위해 의미 파싱 네트워크를 도입한다.
- 다양한 마스크 크기와 모양에서 qualitative 및 quantitative 평가를 통해 CelebA에서의 효과를 입증한다.
제안 방법
- VGG-19 특징을 바탕으로 확장된 엔코더-디코더 생성기에 추가 계층을 도입한다.
- 두 개의 판별기: 로컬 판별기는 마스크 영역 내의 리얼리즘에 초점을 맞추고 글로벌 판별기는 이미지 전체의 리얼리즘을 강제한다.
- 고정된 의미 파싱 네트워크가 의미 규제 손실을 제공하여 생성된 콘텐츠가 얼굴 부위와 정렬되도록 한다.
- 적대적 손실을 안정적으로 학습시키기 위해 명시적 재구성 손실(Lr)을 추가한다.
- 전체 손실 L = Lr + λ1La1 + λ2La2 + λ3Lp를 통해 픽셀 충실도, 로컬 리얼리즘, 글로벌 리얼리즘, 파싱 일관성을 균형 있게 조정한다.
- 학습의 안정성을 높이기 위해 커리큘럼 학습 전략으로 적대적 및 파싱 손실을 점진적으로 도입한다.
실험 결과
연구 질문
- RQ1깊은 생성 모델이 외부 패치 데이터베이스 없이 의미적으로 타당하고 사진적으로 사실적인 누락 얼굴 영역을 합성할 수 있는가?
- RQ2로컬 및 글로벌 적대적 손실과 의미 파싱을 추가하는 것이 보완의 리얼리즘과 얼굴 일관성을 향상시키는가?
- RQ3대형의 불규칙 마스크와 얼굴 자세/정렬 변동 하에서 모델의 성능은 어떠한가?
- RQ4의미 규제가 보완 중 신원(identity) 및 얼굴 구조를 어느 정도 보존하는가?
- RQ5다양한 마스크 크기가 보완 품질과 정체성 보전에 미치는 영향은 무엇인가?
주요 결과
| 마스크 | M1 | M2 | M3 | M4 | CE | M5 |
|---|---|---|---|---|---|---|
| O1 | 0.798 | 0.753 | 0.782 | 0.804 | 0.772 | 0.824 |
| O2 | 0.805 | 0.763 | 0.787 | 0.808 | 0.774 | 0.826 |
| O3 | 0.723 | 0.675 | 0.708 | 0.731 | 0.719 | 0.759 |
| O4 | 0.747 | 0.701 | 0.741 | 0.759 | 0.754 | 0.789 |
| O5 | 0.751 | 0.706 | 0.732 | 0.755 | 0.757 | 0.784 |
| O6 | 0.807 | 0.764 | 0.808 | 0.824 | 0.818 | 0.841 |
- 질적 결과는 대형 및 불규칙 마스크에 대해 현실적이고 의미적으로 타당한 얼굴 보완을 보인다.
- CelebA에서의 정량적 결과는 여섯 가지 마스크 구성에서 SSIM 및 PSNR 면에서 기준선 대비 향상을 보인다.
- 아이덴티티 거리 지표는 간단한 재구성이나 무작위 노이즈 채우기보다 신원을 더 잘 보존하는 경향을 보이나 큰 마스크에서는 여전히 차이가 남.
- 로컬 및 글로벌 이중 판별자 구성과 의미 파싱의 결합은 더 일관된 디테일과 얼굴 특징 정렬을 제공한다.
- 다양한 마스크 크기에 일반화되며(더 작은 마스크가 더 우수) 다양한 가려짐 패턴에서도 성능이 유지된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.