[논문 리뷰] One-shot Face Reenactment
이 논문은 개별 인코더와 공유 디코더를 사용하여 외관과 형태 특징을 분리함으로써 단일 타겟 이미지에서 고해상도의 신원 유지와 현실적인 형태 전이가 가능한 일회성 얼굴 재연 프레임워크를 제안한다. 이 방법은 단일 참조 이미지당 하나의 주제를 사용함에도 불구하고, 인현 유지(야외 데이터 기준 98.2%)와 자세/표정 일致성에서 최신 기술을 초월하며, 다중 이미지 기반 기준보다 뛰어난 성능을 달성한다.
To enable realistic shape (e.g. pose and expression) transfer, existing face reenactment methods rely on a set of target faces for learning subject-specific traits. However, in real-world scenario end-users often only have one target face at hand, rendering existing methods inapplicable. In this work, we bridge this gap by proposing a novel one-shot face reenactment learning framework. Our key insight is that the one-shot learner should be able to disentangle and compose appearance and shape information for effective modeling. Specifically, the target face appearance and the source face shape are first projected into latent spaces with their corresponding encoders. Then these two latent spaces are associated by learning a shared decoder that aggregates multi-level features to produce the final reenactment results. To further improve the synthesizing quality on mustache and hair regions, we additionally propose FusionNet which combines the strengths of our learned decoder and the traditional warping method. Extensive experiments show that our one-shot face reenactment system achieves superior transfer fidelity as well as identity preserving capability than alternatives. More remarkably, our approach trained with only one target image per subject achieves competitive results to those using a set of target images, demonstrating the practical merit of this work. Code, models and an additional set of reenacted faces have been publicly released at the project page.
연구 동기 및 목표
- 단일 타겟 신원 이미지 외에 다른 참조 자료가 없을 경우의 현실적인 얼굴 재연 문제를 해결한다.
- 기존 방법들이 학습을 위해 다수 또는 장시간의 영상 시퀀스가 필요로 하는 한계를 극복한다.
- 잠재 공간 내에서 외관과 형태 표현을 분리함으로써 신원 유지 가능한 얼굴 재연을 가능하게 한다.
- 하이브리드 왜곡-디코더 융합 메커니즘을 통해 수염, 머리카락과 같은 도전적인 영역의 합성 품질을 향상시킨다.
- 전체 기준 기반 방법과 경쟁 가능한 성능을 달성하면서도, 각 주제당 단일 이미지로만 학습한다.
제안 방법
- 타겟 얼굴 외관과 소스 얼굴 형태를 전용 인코더를 통해 별도의 잠재 공간으로 분리한다.
- 외관 잠재변수와 형태 잠재변수의 다중 수준 특징을 융합하여 공유 디코더를 통해 재연 결과를 재구성한다.
- 신원과 텍스처 유지 목적의 자동에코 브랜치(재구성)와 재연 브랜치를 함께 사용해 외관 인코더를 공동으로 학습시킨다.
- 학습된 디코더 출력과 전통적인 왜곡 기반 결과를 융합하는 FusionNet을 도입하여 머리카락, 수염과 같은 미세한 영역의 현실감을 향상시킨다.
- 외관 재구성과 재연 감독을 융합한 가중 손실 함수를 사용하며, 초모수 λ가 재구성 강조 정도를 제어한다.
- 추론 시 다양한 신원 간 특징를 정렬하기 위해 공간적 적응형 정규화를 적용하여 이종 신원 재연을 가능하게 한다.
실험 결과
연구 질문
- RQ1각 주제당 단일 이미지로만 학습할 경우, 얼굴 재연 모델이 고해상도의 신원 유지 성능을 달성할 수 있는가?
- RQ2일회성 설정에서 외관과 형태를 효과적으로 분리하고 조합함으로써 얼굴 신원과 표정 전이의 정확성을 유지할 수 있는가?
- RQ3딥 러닝 기반 생성 기법과 전통적 왜곡 기법을 융합했을 때, 텍스처 및 머리카락 영역의 품질에 어떤 영향을 미치는가?
- RQ4샷 수 증가(예: 일회성 대 비슷한 수의 샷)에 따라 성능이 어떻게 변화하는가?
- RQ5단일 이미지로 학습된 모델이 다수의 참조 이미지로 학습된 모델과 비교해 유사한 성능을 달성할 수 있는가?
주요 결과
- 제안된 방법은 야외 테스트 데이터 기준 98.2%의 신원 유지율을 달성하여 최신 일회성 기법을 뛰어넘고, 단일 참조 이미지만을 사용함에도 불구하고 GANimation의 성능과 맞먹는다.
- 야외 데이터 기준 AU 일치도 71.1%, 자세 일치도 2.63를 기록하여 강력한 표정 및 자세 전이 정확도를 입증한다.
- FusionNet은 기준 모델 대비 평균 8.1%의 신원 유지율 향상을 보였지만, 텍스처 품질에 집중함으로써 약간의 AU 일치도 감소가 발생했다.
- 제거 분석 결과, 외관 잠재변수와 공간적 적응형 디코더를 결합함으로써 신원 유지율이 11.4%포인트 향상(77.7% → 89.1%)됨을 확인했다.
- 3샷 및 5샷 데이터를 사용할 경우, 신원 유지율은 각각 99.3%와 99.4%로 상승하여 데이터 증가에 따라 성능 향상이 이루어지지만, 일회성 성능 역시 매우 경쟁력 있음을 보였다.
- 단일 이미지로 학습된 모델는 교차 소스 데이터 기준 89.1%의 신원 유지율을 기록하여, 다중 이미지 감독에 의존하는 다른 모델보다 뚜렷한 우수성을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.