[논문 리뷰] RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces
RSGAN은 영역 분리형 VAE(얼굴과 머리카락)와 GAN을 도입하여 잠재 공간에서 얼굴을 바꾸고 속성을 편집하게 하며, 쌍별 미세 조정 없이도 견고한 얼굴 바꾸기 및 유연한 편집을 가능하게 한다.
In this paper, we present an integrated system for automatically generating and editing face images through face swapping, attribute-based editing, and random face parts synthesis. The proposed system is based on a deep neural network that variationally learns the face and hair regions with large-scale face image datasets. Different from conventional variational methods, the proposed network represents the latent spaces individually for faces and hairs. We refer to the proposed network as region-separative generative adversarial network (RSGAN). The proposed network independently handles face and hair appearances in the latent spaces, and then, face swapping is achieved by replacing the latent-space representations of the faces, and reconstruct the entire face image with them. This approach in the latent space robustly performs face swapping even for images which the previous methods result in failure due to inappropriate fitting or the 3D morphable models. In addition, the proposed system can further edit face-swapped images with the same network by manipulating visual attributes or by composing them with randomly generated face or hair parts.
연구 동기 및 목표
- 자동 얼굴 교환과 외모 편집을 위한 통일된 시스템의 동기를 제시한다.
- 얼굴 영역과 머리카락 영역에 대해 서로 다른 잠재 공간을 학습하는 영역 분리 GAN을 제안한다.
- 잠재 표현을 교환하고 전체 이미지를 재구성함으로써 얼굴 바꾸기를 가능하게 한다.
- 동일 네트워크 내에서 속성 기반 편집과 임의 부위 합성을 지원한다.
- 다양한 자세, 조명, 표정에서도 견고함을 입증하되 쌍별 미세 조정을 피한다.
제안 방법
- 두 개의 VAE(분리기 네트워크)가 얼굴과 머리카락의 외관을 서로 다른 잠재 공간(z_f, z_h)으로 인코딩한다.
- 하나의 GAN 기반 합성 네트워크가 페어링된 잠재 코드로부터 전체 이미지를 재구성한다.
- 학습은 얼굴, 머리카락, 전체 이미지에 대한 세 가지 재구성 손실을 사용하고 배경 마스크로 전경 디테일을 강조한다.
- KL 발산 손실이 잠재 공간을 정규화하고, 전역 판별기와 패치 판별기로부터의 적대적 손실이 리얼리즘을 안내한다.
- 분류 네트워크가 입력 이미지에서 시각적 속성을 추정하여 속성-조건 편집을 가능하게 한다.
- 얼굴 바꿔치기 동안 두 입력의 잠재 코드를 x′ = G(z_xf, z_cf, z_xh, z_ch)로 결합한다.
- 머리카락/배경의 일관성을 다듬기 위해 선택적으로 기울기 도메인 재봉합(RSGAN-GD)을 적용할 수 있다.
- 데이터셋은 CelebA를 기반으로 얼굴/머리카락 영역을 분할하고 학습을 위한 패치를 추출하여 구축된다.
실험 결과
연구 질문
- RQ1얼굴과 머리카락 잠재 표현을 분리하는 것이 자세, 조명, 표정의 변화에 따라 얼굴 바꾸기의 강건성 및 품질을 향상시킬 수 있는가?
- RQ2동일한 잠재 공간 프레임워크가 추가적인 쌍별 미세 조정 없이 속성 기반 편집과 임의 부위 합성을 지원할 수 있는가?
- RQ3 region-separable modeling이 기존 방법에 비해 정체성 보존 및 교환 일관성에 어떤 영향을 미치는가?
- RQ4이 작업들에 대해 변분 잠재 공간을 사용하는 것과 비변분 인코더를 사용하는 것이 어떠한 영향을 미치는가?
주요 결과
- RSGAN은 다양한 자세와 조명 조건에서 자연스러운 얼굴 교환 결과를 달성한다.
- 상응하는 잠재 코드를 조작하여 시각적 속성을 편집하면 얼굴이나 머리카락에 대한 표적 변화를 교차 효과 없이 가능하게 한다.
- 얼굴 또는 머리카락 잠재 공간의 임의 샘플링은 다른 영역을 보존하면서 새로운 외모를 생성한다.
- RSGAN은 교환 일관성에서 경쟁력을 보이고 보고된 지표들에서 여러 기준 생성 모델보다 개선되었으며, 다만 일부 경우에는 특수한 3DMM 기반 방법이 더 높은 아이덴티티 충실성을 유지할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.