[논문 리뷰] DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models
DreamTalk은 디퓨전 모델과 노이즈 제거 네트워크, 스타일 인지 립 전문가, 스타일 예측기를 활용하여 광범위한 스타일 참조에 의존하지 않고도 표현력이 풍부하고 오디오로 구동되는 말하는 얼굴을 생성하며, 립싱크를 개선하고 다양한 말하기 스타일을 달성합니다.
Emotional talking head generation has attracted growing attention. Previous methods, which are mainly GAN-based, still struggle to consistently produce satisfactory results across diverse emotions and cannot conveniently specify personalized emotions. In this work, we leverage powerful diffusion models to address the issue and propose DreamTalk, a framework that employs meticulous design to unlock the potential of diffusion models in generating emotional talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network can consistently synthesize high-quality audio-driven face motions across diverse emotions. To enhance lip-motion accuracy and emotional fullness, we introduce a style-aware lip expert that can guide lip-sync while preserving emotion intensity. To more conveniently specify personalized emotions, a diffusion-based style predictor is utilized to predict the personalized emotion directly from the audio, eliminating the need for extra emotion reference. By this means, DreamTalk can consistently generate vivid talking faces across diverse emotions and conveniently specify personalized emotions. Extensive experiments validate DreamTalk's effectiveness and superiority. The code is available at https://github.com/ali-vilab/dreamtalk.
연구 동기 및 목표
- 중립적인 표현을 넘어 표현력 있는 말하는 얼굴 생성을 도모한다.
- 고품질의 다양하고 풍부한 말하기 스타일을 달성하기 위해 디퓨전 모델을 활용한다.
- 오디오와 초상 이미지를 통해 스타일을 추론하여 비용이 많이 드는 스타일 참조 비디오나 텍스트의 필요성을 제거한다.
- 다양한 언어와 입력에서도 생생한 표현을 유지하면서 정확한 립싱크를 보장한다.
제안 방법
- 오디오와 스타일 참조 비디오에 조건화된 디퓨전 기반 노이즈 제거 네트워크를 사용하여 오디오 구동 얼굴 운동을 합성한다.
- 표현적 발화 스타일을 보존하는 립싱크 지침을 제공하는 스타일 인지 립 전문가를 도입한다.
- 오디오(및 초상 이미지)로 직접 발화 스타일을 추정하는 디퓨전 기반 스타일 예측기를 도입하여 스타일 참조에 대한 의존성을 줄인다.
실험 결과
연구 질문
- RQ1다양한 말하기 스타일에서도 정확한 립싱크를 갖춘 표현적인 말하는 얼굴을 디퓨전 모델로 생성할 수 있는가?
- RQ2립 모션 지침을 어떻게 스타일 인지하도록 만들 수 있어 표현력과 립싱크 정확성의 균형을 맞출 수 있는가?
- RQ3참조 비디오나 텍스트 없이도 오디오만으로 개인화된 발화 스타일을 직접 예측하는 것이 가능한가?
주요 결과
- DreamTalk는 여러 데이터셋에 걸쳐 립싱크 정확도와 스타일 표현성에서 최신 방법을 능가한다.
- 스타일 인지 립 전문가가 강한 립싱크를 유지하면서 생생한 표현을 보존한다.
- 스타일 예측기가 오디오와 초상 이미지로부터 개인화된 발화 스타일을 추론하여 추가 스타일 참조의 필요성을 줄인다.
- DreamTalk는 도메인 외 초상, 다언어 말하기, 소음이 있는 오디오에 대해서도 강건한 일반화를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.