[논문 리뷰] Arbitrary Talking Face Generation via Attentional Audio-Visual Coherence Learning
이 논문은 청각-시각 간의 공유 정보를 최대화하기 위해 비대칭 상호정보 추정기(AMIE)를 도입하고, 입술 영역에 집중하기 위해 동적 주의(DA) 블록을 도입함으로써 청각-시각 일관성과 입술 동기화를 향상시키는 새로운 대화형 얼굴 생성 프레임워크를 제안한다. 이 방법은 LRW 및 GRID 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하며, PSNR, SSIM 및 LMD 지표에서 유의미한 향상을 보이며 신원 및 자세 변형에 대한 강건성을 입증한다.
Talking face generation aims to synthesize a face video with precise lip synchronization as well as a smooth transition of facial motion over the entire video via the given speech clip and facial image. Most existing methods mainly focus on either disentangling the information in a single image or learning temporal information between frames. However, cross-modality coherence between audio and video information has not been well addressed during synthesis. In this paper, we propose a novel arbitrary talking face generation framework by discovering the audio-visual coherence via the proposed Asymmetric Mutual Information Estimator (AMIE). In addition, we propose a Dynamic Attention (DA) block by selectively focusing the lip area of the input image during the training stage, to further enhance lip synchronization. Experimental results on benchmark LRW dataset and GRID dataset transcend the state-of-the-art methods on prevalent metrics with robust high-resolution synthesizing on gender and pose variations.
연구 동기 및 목표
- 기존 대화형 얼굴 생성 방법에서의 다중 모odal 간 청각-시각 일관성 부족 문제를 해결하기 위해.
- 청각 및 시각 모달 간 상호 의존성을 모델링하여 입술 동기화를 향상시키기 위해.
- 학습 중에 신원 및 운동 관련 특징에 대해 동적으로 주의를 기울임으로써 특징 분리 성능을 향상시키기 위해.
- 임의의 신원, 자세 및 말하기 스타일에 대해 일반화 가능한 강건한 프레임워크를 개발하기 위해.
- 포괄적인 추론 및 사용자 연구를 통해 제안된 AMIE 및 DA 구성 요소의 효과성을 검증하기 위해.
제안 방법
- 청각과 영상 간의 공유 정보를 최대화하기 위해 제논-섀넌 분산 기반 상호정보 추정기(MI 추정기)를 사용하는 비대칭 상호정보 추정기(AMIE)를 도입하여 초기 GAN 학습 단계에서 편향된 추정을 방지한다.
- 실제 이미지-청각 쌍을 사용해 MI 추정기를 학습하고, GAN 학습 동안 생성된 영상과 입력된 청각 간의 상호정보를 최대화함으로써 비대칭 학습 전략을 적용한다.
- 신원을 대표하는 얼굴 이미지와 이전에 생성된 프레임에 대해 적응적으로 주의를 기울이는 동적 주의(DA) 블록을 제안하여 신원 및 운동 특징을 분리한다.
- 생성자에 AMIE와 DA를 통합한 조건부 GAN 프레임워크를 사용하며, 생성자는 음성과 기준 얼굴 이미지를 조건으로 한다.
- 학습 안정성 향상과 시간적 일관성 향상을 위해 제논-섀넌 MI 추정기 기반의 특징 수준 손실을 활용한다.
- 다중 해상도 판별자를 사용하여 생성된 얼굴 영상의 현실성과 시간적 일관성을 향상시킨다.
실험 결과
연구 질문
- RQ1청각 및 시각 모달 간의 상호정보 추정이 대화형 얼굴 생성에서 입술 동기화를 향상시키는 데 기여하는가?
- RQ2MI 추정기의 비대칭 학습 전략이 더 안정적이고 효과적인 청각-시각 일관성 학습을 이끌어내는가?
- RQ3동적 주의 메커니즘이 임의의 신원에서의 신원 및 운동 특징 분리에 기여하는가?
- RQ4제안된 AMIE 및 DA 프레임워크는 시각 품질과 시간적 일관성 측면에서 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?
- RQ5모델이 다양한 신원, 자세 및 말하기 스타일에 걸쳐 얼마나 잘 일반화되는가?
주요 결과
- LRW 데이터셋에서 제안된 방법은 PSNR 29.64, SSIM 0.92, LMD 1.18를 기록하며 이전 최신 기술 수준 방법들을 능가한다.
- GRID 데이터셋에서 방법은 PSNR 31.01, SSIM 0.97, LMD 0.78를 기록하여 강력한 교차 데이터셋 일반화 능력을 보여준다.
- 추론 연구 결과, 비대칭 학습과 JS 추정기를 갖춘 AMIE는 기준 모델 대비 PSNR 0.58 향상 및 SSIM 0.03 향상됨을 확인하였다.
- 단독으로 동적 주의(DA) 모듈을 적용했을 때도 PSNR 0.26 향상 및 SSIM 0.01 향상되었으며, 이는 입술 운동 정확도 향상에 기여하는 중요한 기여를 보여준다.
- 사용자 연구 결과, 참가자 56.41%가 제안된 방법을 더 현실적으로 평가하였고, 48.91%는 시간적 동기화가 더 뛰어나다고 평가하였다.
- 모델은 성별 및 자세 변화에 걸쳐 높은 성능를 유지하며, 신원 및 외형 다양성에 대한 강건성을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.