[논문 리뷰] Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose
이 논문은 소스의 오디오를 개인화된 머리 포즈를 가진 타깃의 말하는 얼굴 비디오로 매핑하는 신경 파이프라인을 제시합니다. 3D 얼굴 재구성 및 현실감을 위한 기억 강화 GAN을 사용합니다. 일반 오디오-얼굴 매핑을 짧은 타깃 비디오에서 미세 조정하여 개인화된 모션과 머리 포즈를 달성합니다.
Real-world talking faces often accompany with natural head movement. However, most existing talking face video generation methods only consider facial animation with fixed head pose. In this paper, we address this problem by proposing a deep neural network model that takes an audio signal A of a source person and a very short video V of a target person as input, and outputs a synthesized high-quality talking face video with personalized head pose (making use of the visual information in V), expression and lip synchronization (by considering both A and V). The most challenging issue in our work is that natural poses often cause in-plane and out-of-plane head rotations, which makes synthesized talking face video far from realistic. To address this challenge, we reconstruct 3D face animation and re-render it into synthesized frames. To fine tune these frames into realistic ones with smooth background transition, we propose a novel memory-augmented GAN module. By first training a general mapping based on a publicly available dataset and fine-tuning the mapping using the input short video of target person, we develop an effective strategy that only requires a small number of frames (about 300 frames) to learn personalized talking behavior including head pose. Extensive experiments and two user studies show that our method can generate high-quality (i.e., personalized head movements, expressions and good lip synchronization) talking face videos, which are naturally looking with more distinguishing head movement effects than the state-of-the-art methods.
연구 동기 및 목표
- 고정된 포즈가 아닌 개인화된 머리 포즈를 갖춘 자연스러운 말하는 얼굴 비디오 생성을 촉진한다.
- 일반적인 오디오-얼굴 매핑을 학습하고 짧은 타깃 비디오에서 미세 조정하여 개인별 머리 움직임과 표정을 포착한다.
- 오디오–시각 신호를 3D 얼굴 애니메이션과 렌더링을 통해 연결하여 현실적인 프레임을 생성한다.
- 임의의 타깃 신원을 적응시키는 기억 보강 GAN으로 렌더링된 프레임을 다듬는다.
제안 방법
- 1단계: 오디오 MFCC 특징에서 3DMM 표현/포즈로의 일반적인 매핑을 LSTM 네트워크를 사용해 학습한다.
- 2단계: 짧은 비디오로 타깃의 3D 얼굴을 재구성하고, 개인화된 말하기 동작을 포착하도록 매핑을 미세 조정하며 2단계 3D 얼굴 애니메이션을 얻는다.
- 목표 신원 텍스처/조명을 사용해 3D 얼굴 애니메이션을 프레임으로 렌더링한 후, 신원 특징과 메모리 모듈을 활용하여 신원 간 적응을 가능하게 하는 기억 보강 GAN으로 개선한다.
- 정체성 특징을 저장하고 정제에 활용하기 위해 기억 네트워크를 사용하여 원샷/파샷 개인화를 가능하게 한다.
- 렌더링된 프레임의 윈도우와 정체성 특징을 대상으로 하는 이중 스트림 조건부로 GAN을 학습하고, 주의 기반 생성기와 PatchGAN 기반 판별기를 활용한다.
실험 결과
연구 질문
- RQ1짧은 타깃 비디오를 기반으로 개인화된 머리 포즈를 포함하면서도 오디오 만으로 자연스러운 입 모션 동기화를 이끌어낼 수 있는가?
- RQ23D 기하학과 렌더링을 학습 기반의 정제와 어떻게 통합하여 임의의 신원에 대해 현실적인 말하는 얼굴 비디오를 생성할 수 있는가?
- RQ3메모리 보강 GAN이 서로 다른 피실험자들 간의 고품질이고 아이덴티티 인식 프레임 정제에 도움이 되는가?
- RQ4약 300 프레임 정도의 작은 타깃 비디오에서의 미세 조정이 개인화된 머리 포즈 적응에 어떤 효과를 보이는가?
주요 결과
| Method | PSNR | SSIM | LMD |
|---|---|---|---|
| Chen | 29.65 | 0.73 | 1.73 |
| Wiles | 29.82 | 0.75 | 1.60 |
| You said that | 29.91 | 0.77 | 1.63 |
| DAVS | 29.90 | 0.73 | 1.73 |
| ATVG | 30.91 | 0.81 | 1.37 |
| Ours-G | 30.94 | 0.75 | 1.58 |
- 제안된 Ours-P 모델은 주관적 사용자 연구에서 최첨단 방법들보다 이미지 품질, 입 모양 동기화, 자연스러움에서 더 우수하다.
- LRW 데이터셋에서의 정량적 결과는 Ours-G가 최고 PSNR(30.94)과 비교적 높은 SSIM(0.75) 및 LMD(1.58)를 달성했음을 보여주며 Chen, Wiles, You said that, DAVS, 및 ATVG와 비교된다.
- 단일 입력 프레임(Ours-G)을 사용할 때 이전 방법과 비교하거나 우수한 정량적 프로필을 보이며 양호한 입 모션 동기화를 보여준다.
- 약 300 프레임으로의 미세 조정(Ours-P)은 고정 포즈 기준선보다 질적 평가 및 사용자 연구 평가에서 더 나은 개인화된 머리 포즈와 표정을 가능하게 한다.
- 정체성 조건 정제를 갖춘 기억 증강 GAN은 비메모리 기준선보다 다양한 신원에서 더 현실적인 질감과 얼굴 디테일을 생성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.