[논문 리뷰] Face Transfer with Generative Adversarial Network
이 논문은 두 개의 판별자(큰 반사장과 작은 반사장)를 갖춘 수정된 CycleGAN을 사용하여, 훈련 데이터에 없는 머리 자세와 표정을 가진 고품질의 현실적인 목표 얼굴 이미지를 생성하는 엔드 투 엔드 얼굴 전이 방법을 제안한다. 큰 반사장 판별자가 제공하는 전반적 일관성과 작은 반사장 판별자가 제공하는 국소적 세부 정보 충실도를 결합함으로써, 얼굴 애니메이션을 위한 이미지 간 번역에서 우수한 일반화 능력과 현실감을 달성한다.
Face transfer animates the facial performances of the character in the target video by a source actor. Traditional methods are typically based on face modeling. We propose an end-to-end face transfer method based on Generative Adversarial Network. Specifically, we leverage CycleGAN to generate the face image of the target character with the corresponding head pose and facial expression of the source. In order to improve the quality of generated videos, we adopt PatchGAN and explore the effect of different receptive field sizes on generated images.
연구 동기 및 목표
- 쌍체의 훈련 데이터가 없이도 원본 액터의 표정과 머리 자세를 목표 캐릭터로 매핑하는 엔드 투 엔드 얼굴 전이 시스템을 개발하는 것.
- 목표 데이터셋에 존재하지 않는 새로운 머리 자세와 표정을 가진 현실적인 얼굴 이미지를 생성하는 도전 과제를 해결하는 것.
- 다른 반사장 크기를 가진 판별자를 통해 전반적 구조와 국소 텍스처 모델링을 분리함으로써 이미지 품질 향상과 생성기의 창의성 향상을 도모하는 것.
- 생성 적대 네트워크(GANs)를 사용하여 얼굴 전이를 이미지 간 번역 작업으로 정형화하는 것.
제안 방법
- 쌍체의 훈련 데이터가 없이도 신원을 유지하는 번역을 가능하게 하기 위해, 원본과 목표 얼굴 이미지 간의 일대일 매핑을 학습하기 위해 CycleGAN을 활용한다.
- 다양한 반사장 크기(97×97 및 42×42)를 가진 패치GAN 판별자를 사용하여 국소적 현실감과 전반적 일관성을 강화한다.
- 큰 반사장 판별자(전반적 구조 강화용)와 작은 반사장 판별자(국소 텍스처 충실도 강화용)를 조합한 다중 판별자 아키텍처를 구현한다.
- 두 판별자의 적대적 손실 가중치를 조정하여 생성된 이미지의 전반적 일관성과 국소 세부 정보의 균형을 맞춘다.
- 엔드 투 엔드로 생성기를 훈련시어, 원본의 표정과 머리 자세를 반영하면서도 사실적인 외관을 가진 목표 얼굴 이미지를 생성하도록 한다.
- 단일 생성기 네트워크를 사용하여 원본 프레임에 대응하는 각 목표 비디오 프레임을 합성함으로써 비디오 수준의 재구성 가능성을 확보한다.
실험 결과
연구 질문
- RQ1쌍체의 훈련 데이터나 명시적 얼굴 모델링이 없이도 GAN 기반 접근이 고품질의 엔드 투 엔드 얼굴 전이를 달성할 수 있는가?
- RQ2판별자의 반사장 크기 선택이, 특히 새로운 머리 자세에 대해 생성된 얼굴 이미지의 현실감과 일반화 능력에 어떤 영향을 미치는가?
- RQ3큰 반사장과 작은 반사장을 조합한 이중 판별자 아키텍처가 얼굴 전이에서 전반적 구조와 국소 텍스처 충실도를 모두 향상시킬 수 있는가?
- RQ4생성기가 목표 훈련 세트에 존재하지 않는 표정과 머리 자세에 대해 얼마나 잘 일반화되어 사실적인 이미지를 생성할 수 있는가?
주요 결과
- 97+97 판별자 모델은 전반적 이미지 현실감을 강화하지만, 새로운 머리 자세를 생성할 경우 엄격한 전반적 제약로 인해 왜곡되고 노이즈가 많은 얼굴을 생성한다.
- 42+42 판별자 모델은 국소 패치의 현실감에 의존하므로 더 선명한 이미지를 생성하지만, 전반적 구조 강화가 부족해 전반적 얼굴 기형이 발생한다.
- 97+42 이중 판별자 모델은 전반적 일관성과 국소 세부 정보 사이의 최적의 균형을 달성하여, 아티팩트와 기형을 크게 감소시킨다.
- 97+42 모델은 목표 데이터셋에 존재하지 않는 머리 자세를 가진 현실적인 얼굴 이미지를 성공적으로 생성하여, 단일 판별자 기반 기준 모델 대비 더 뛰어난 일반화 능력을 입증한다.
- 목표 비디오에 직접적인 참조가 없더라도 모델은 합리적인 입술 모양을 생성하지만, 치아와 같은 세부 사항은 여전히 완벽하지 않다.
- 제거 실험을 통해 서로 다른 반사장 크기를 가진 판별자를 조합함으로써 생성기가 다양한, 현실적이며 일관된 얼굴 이미지를 생성하는 능력이 향상됨을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.