[논문 리뷰] FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping
FaceShifter는 두 단계의 얼굴 바꿔치기 프레임워크를 도입합니다: 대상 속성 및 정체성의 적응적 임베딩과 함께 고충실도 합성을 제공하는 AEI-Net과, 자기지도 기반 가림 보정(occlusion refinement)을 수행하는 HEAR-Net으로 이어집니다. 이를 통해 높은 충실도와 정체성 보존을 달성합니다.
In this work, we propose a novel two-stage framework, called FaceShifter, for high fidelity and occlusion aware face swapping. Unlike many existing face swapping works that leverage only limited information from the target image when synthesizing the swapped face, our framework, in its first stage, generates the swapped face in high-fidelity by exploiting and integrating the target attributes thoroughly and adaptively. We propose a novel attributes encoder for extracting multi-level target face attributes, and a new generator with carefully designed Adaptive Attentional Denormalization (AAD) layers to adaptively integrate the identity and the attributes for face synthesis. To address the challenging facial occlusions, we append a second stage consisting of a novel Heuristic Error Acknowledging Refinement Network (HEAR-Net). It is trained to recover anomaly regions in a self-supervised way without any manual annotations. Extensive experiments on wild faces demonstrate that our face swapping results are not only considerably more perceptually appealing, but also better identity preserving in comparison to other state-of-the-art methods.
연구 동기 및 목표
- 소스 정체성을 보존하면서 얼굴 바꿔치기의 충실도와 현실감을 높이는 것을 목표로 한다.
- 합성 과정에서 대상 영상의 속성(포즈, 표정, 조명, 배경)을 적응적으로 주입한다.
- 수동 주석 없이 자기지도 보정을 통해 가림(occlusion)을 처리한다.
- 개인별 학습 없이 새로운 얼굴 쌍에서도 작동하는 주체에 독립적인 스와핑을 생성한다.
제안 방법
- 적응형 임베딩 통합 네트워크(AEI-Net)와 다단계 속성 인코더 및 적응형 주의적 디노멀라이제이션(AAD) 생성기로 정체성과 대상 속성을 통합한다.
- 정체성 인코더가 소스 정체성을 추출하고, 다단계 속성 인코더가 공간 속성 정보를 보존한다.
- AAD 계층은 주의 마스크를 사용한 적응형 디노멀라이제이션으로 특징 차원에서 정체성 및 속성을 융합한다.
- 두 단계 파이프라인: 1단계에서 고충실도 교환 얼굴을 생성하고, 2단계(HEAR-Net)가 수동 주석 없이 휴리스틱 오류 지도를 이용해 가림을 보정한다.
실험 결과
연구 질문
- RQ1적응적 다단계 속성 통합이 얼굴 바꿔치기의 충실도와 조명 일관성을 향상시킬 수 있는가?
- RQ2자기지도 보정 단계가 추가 라벨 없이도 대상 가림 및 드문 인공 현상을 효과적으로 회복할 수 있는가?
- RQ3두 단계의 FaceShifter 프레임워크가 맥락이 다양한 얼굴과 다양한 가림에서도 견고한가?
주요 결과
| 방법 | ID 검색↑ | 포즈 ↓ | 표정 ↓ |
|---|---|---|---|
| DeepFakes | 81.96 | 4.14 | 2.57 |
| FaceSwap | 54.19 | 2.51 | 2.14 |
| Nirkin et al. | 76.57 | 3.29 | 2.33 |
| IPGAN | 82.41 | 4.04 | 2.50 |
| Ours | 97.38 | 2.96 | 2.06 |
- FaceShifter는 FaceForensics++ 데이터셋에서 이전 방법들보다 더 높은 정체성 보존 및 대상 속성 충실도를 달성합니다.
- 정량적 결과는 우리의 방법이 baselines 대비 우수한 ID 추출(97.38)과 자세(2.96) 및 표정(2.06) 오차를 달성함을 보여줍니다.
- 사용자 연구는 FaceShifter가 기존 방법들에 비해 현저한 리얼리즘 및 정체성/속성 정렬에 이점을 보인다고 나타냅니다.
- HEAR-Net은 가림과 색상 이동을 효과적으로 회복하여 도전적인 가림 및 큰 포즈 변화에 대한 결과를 개선합니다.
- 다단계 속성 및 적응 융합을 갖춘 AEI-Net은 단일 단계 또는 비적응 베이스라인보다 우수합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.