Skip to main content
QUICK REVIEW

[논문 리뷰] Speech-Driven Facial Reenactment Using Conditional Generative Adversarial Networks

Seyed Ali Jalalifar, Hosein Hasani|arXiv (Cornell University)|2018. 03. 20.
Face recognition and analysis참고 문헌 32인용 수 24
한 줄 요약

이 논문은 조건부 생성 적대 신경망(C-GANs)과 양방향 LSTM를 사용하여 음성 입력으로부터 사진 수준의 사실적인 입술 동조가 된 얼굴 영상을 생성하는 음성 주도 얼굴 재연 시스템을 제안한다. 이 방법은 먼저 양방향 LSTM를 사용해 음성에서 입술 키포인트를 예측하고, 이를 조건으로 C-GAN을 통해 사실적인 얼굴을 합성함으로써 정확한 동기화와 다양한 화자 간 이식성이 확보된 자연스러운 말하는 얼굴 영상을 구현한다.

ABSTRACT

We present a novel approach to generating photo-realistic images of a face with accurate lip sync, given an audio input. By using a recurrent neural network, we achieved mouth landmarks based on audio features. We exploited the power of conditional generative adversarial networks to produce highly-realistic face conditioned on a set of landmarks. These two networks together are capable of producing a sequence of natural faces in sync with an input audio track.

연구 동기 및 목표

  • 3D 모델링이나 컴positing에 의존하지 않고, 음성에서 사진 수준의 사실적인 말하는 얼굴 영상을 생성하기 위한 유연하고 종단 간(end-to-end) 기계학습 파이프라인 개발.
  • 1D에서 3D로의 매핑 과정에서 발생하는 시간 오차에 민감한 인간의 감각으로 인해 어려운 입술 동기화 정확성 문제 해결.
  • 기존의 그래픽스 기반 방법의 한계, 즉 현실적인 이가 생성하기 어려움과 '기묘한 골목' 효과에 취약함을 해결.
  • 음성 주도 키포인트 예측과 얼굴 생성을 분리함으로써 화자 간 이식이 가능하게 하여, 한 화자의 음성에서 다른 화자의 얼굴 정체성을 전이할 수 있도록 구현.
  • 조건부 GAN의 다양체 학습 능력과 음성의 음소적 맥락을 양방향으로 모델링함으로써 시각적 품질과 강인성을 향상.

제안 방법

  • 양방향 LSTM 네트워크를 음성 특징에서 얼굴 입술 키포인트를 예측하도록 훈련하여, 이전과 이후의 음소를 모두 모델링함으로써 공음화 효과를 포착.
  • 예측된 입술 키포인트를 조건으로 하여 고해상도 얼굴 이미지를 생성하기 위해 조건부 GAN(C-GAN)을 사용하며, 얼굴 질감과 배경을 유지.
  • 후기 훈련 에포크에서 고정된 타겟 영상 데이터셋에 대해 C-GAN을 미세조정하여 생성 프레임 간 얼굴 정체성과 질감의 일관성을 유지.
  • 음성에서 키포인트 예측과 이미지 생성을 분리함으로써 독립적인 최적화가 가능하고, 단순한 애핀 변환을 통해 원본 키포인트를 변환하여 화자 간 재연이 가능.
  • 검증 세트에서 손실 최소화를 위해 Adam 옵timizer를 사용하며, 이전 GAN 연구에서의 기법들을 적용하여 시각적 잡음 감소.
  • 얼굴 키포인트 추출에는 Dlib 얼굴 키포인트 검출기 사용, 그러나 더 정확한 현대적 대안과도 호환 가능.

실험 결과

연구 질문

  • RQ1딥 러닝 기반 시스템이 3D 모델링이나 컴positing에 의존하지 않고 원시 음성에서 사진 수준의 사실적인 입술 동조가 된 얼굴 영상을 생성할 수 있는가?
  • RQ2양방향 LSTM가 음성에서 정확한 입술 키포인트를 예측하기 위해 음소적 맥락을 효과적으로 모델링할 수 있는가, 이로 인해 입술 동기화 정확도 향상이 가능한가?
  • RQ3조건부 GAN이 오직 입술 키포인트만을 조건으로 하여 현실적인 얼굴 이미지를 생성할 수 있는가, 정체성과 질감을 유지하는가?
  • RQ4시스템이 한 화자의 음성에서 다른 화자의 얼굴 정체성으로 음성 전이를 얼마나 잘 수행할 수 있는가, 이 과정에서 시각적 현실감과 동기화 유지 수준은 어떠한가?
  • RQ5시스템의 주요 실패 유형은 무엇이며, 이는 예측된 키포인트와 훈련 데이터 분포 간의 괴리와 어떤 관련이 있는가?

주요 결과

  • 단일 레이어 양방향 LSTM가 양방향(0.84), 단방향(0.93) 및 이중 레이어 양방향(0.84) 대비 더 낮은 검증 손실(300 에포크 기준 0.85)을 기록하여 최적의 성능를 보임.
  • 드롭아웃 비율 0.3과 0.5가 일반화 성능 향상에 기여하였으며, 단일 레이어 양방향 LSTM는 각각 100 및 200 에포크에서 검증 손실 0.88과 0.93 기록.
  • C-GAN은 예측된 키포인트에서 현실적인 얼굴 이미지를 성공적으로 생성하였으며, 타겟 영상 데이터에 대한 미세조정을 통해 정체성 유지가 향상된 시각적 품질 확보.
  • 시스템은 성공적인 화자 간 재연을 보였으며, 단지 키포인트 변환만으로 힐러리 클린턴의 음성에서 버락 오바마의 얼굴을 자연스럽게 생성.
  • 실패 케이스는 주로 예측된 키포인트와 훈련 데이터 분포 간 큰 괴리로 인해 발생하였으며, 특히 극단적인 머리 자세나 이질적인 입술 형태에서 두드러짐.
  • 모듈러한 설계 덕분에 음성에서 키포인트 예측과 키포인트에서 이미지 생성 모듈을 별도로 최적화할 수 있어, Dubsmash 스타일의 얼굴 교체와 같은 다양한 응용 가능.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.