[논문 리뷰] MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control
MirrorTalk은 의미적으로 해방된 스타일 인코더와 시공간 계층적 확산 변조를 이용해 정확한 입 모양 싱크와 화자 특성을 유지한 맞춤 대화 얼굴을 합성한다.
Synthesizing personalized talking faces that uphold and highlight a speaker's unique style while maintaining lip-sync accuracy remains a significant challenge. A primary limitation of existing approaches is the intrinsic confounding of speaker-specific talking style and semantic content within facial motions, which prevents the faithful transfer of a speaker's unique persona to arbitrary speech. In this paper, we propose MirrorTalk, a generative framework based on a conditional diffusion model, combined with a Semantically-Disentangled Style Encoder (SDSE) that can distill pure style representations from a brief reference video. To effectively utilize this representation, we further introduce a hierarchical modulation strategy within the diffusion process. This mechanism guides the synthesis by dynamically balancing the contributions of audio and style features across distinct facial regions, ensuring both precise lip-sync accuracy and expressive full-face dynamics. Extensive experiments demonstrate that MirrorTalk achieves significant improvements over state-of-the-art methods in terms of lip-sync accuracy and personalization preservation.
연구 동기 및 목표
- 입 모양 싱크를 유지하면서 화자 고유의 스타일을 보존하는 개인화된 말하는 얼굴 생성의 필요성을 제시한다.
- 짧은 참조 영상으로 순수한 스타일을 추출하기 위한 의미적으로 해방된 스타일 인코더(SDSE)를 제안한다.
- 얼굴 영역별로 오디오와 스타일을 조건부 융합하도록 확산에 시공간 계층적 모듈레이션을 도입한다.
- 스타일을 콘텐츠로부터 분리하는 것이 입 모양 싱크의 정확도와 화자 페르소나 보존을 향상시킨다는 것을 입증한다.
- 최신 방법들과의 광범위한 정량적 및 정성적 비교를 제공한다.
제안 방법
- 짧은 참조 영상에서 의미적으로 해방된 스타일 인코더(SDSE)를 학습하기 위한 2단계 학습 프레임워크를 도입한다.
- 오디오 의미를 시각 신호와 정렬하기 위한 Motion Expert를 활용한 크로스 모달 감독 체계를 사용한다.
- SDSE를 분리 손실과 HSIC 기반 독립성 정규화항 및 트리플렛 손실과 함께 학습시켜 화자 구분 가능하지만 콘텐츠에 독립적인 스타일 표현을 얻는다.
- 각 타임스텝에서 위쪽(스타일 지배)과 아래쪽(오디오 지배) 얼굴 영역에 대해 오디오 대 스타일 특성을 동적으로 균형 잡도록 시공간 계층적 모듈레이션이 있는 확산 트랜스포머(DiT)를 적용한다.
- 인코더는 기하학적 3D FLAME 매개변수를 추정하고; 신경 렌더러가 생성된 모션 및 인물 사진으로 최종 비디오 프레임을 합성한다.
- CREMA-D, HDTF, VoxCeleb2 유래 합성물에서 SSIM, FID, M-LMD, F-LMD, Sync_conf 및 StyleSim을 사용해 평가한다.
실험 결과
연구 질문
- RQ1짧은 참조 영상에서 의미적으로 해방된 스타일 표현을 추출하여 콘텐츠와 무관하게 화자 특유의 말하는 스타일을 포착할 수 있는가?
- RQ2영역 인식적이고 계층적 확산 조건화 전략이 개인화된 얼굴 다이내믹스를 보존하면서 입 모양 싱크 정확도를 향상시키는가?
- RQ3다양한 데이터셋에서 얼굴 싱크 정확도와 페르소나 보존 측면에서 MirrorTalk이 최첨단 방법들과 어떻게 비교되는가?
- RQ4각 구성 요소(메모리 은행, 해방 모듈, 트립렛 손실, 계층적 스케일)가 전체 성능에 미치는 영향은 무엇인가?
주요 결과
| 방법 | SSIM (CREMA-D) | FID (CREMA-D) | M-LMD (CREMA-D) | F-LMD (CREMA-D) | Sync_conf (CREMA-D) | StyleSim (CREMA-D) | SSIM (HDTF) | FID (HDTF) | M-LMD (HDTF) | F-LMD (HDTF) | Sync_conf (HDTF) | StyleSim (HDTF) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Wav2Lip | 0.725 | 32.461 | 3.025 | 3.476 | 4.384 | 0.826 | 0.618 | 38.744 | 4.121 | 4.040 | 3.762 | 0.841 |
| EAMM | 0.414 | 37.296 | 6.630 | 6.819 | 1.545 | 0.788 | 0.396 | 42.158 | 6.019 | 7.135 | 1.204 | 0.805 |
| SadTalker | 0.762 | 15.135 | 4.143 | 2.804 | 2.676 | 0.851 | 0.664 | 20.514 | 3.559 | 2.926 | 2.232 | 0.862 |
| AniTalker | 0.726 | 16.141 | 5.742 | 4.052 | 1.926 | 0.730 | 0.593 | 25.259 | 6.413 | 4.547 | 2.763 | 0.724 |
| Echomimic | 0.912 | 28.506 | 4.006 | 2.612 | 3.461 | 0.852 | 0.879 | 31.243 | 3.681 | 2.851 | 2.689 | 0.866 |
| V-Express | 0.708 | 18.074 | 4.906 | 4.868 | 2.130 | 0.834 | 0.651 | 24.061 | 5.706 | 5.001 | 1.593 | 0.845 |
| Ours | 0.917 | 16.293 | 2.771 | 1.824 | 4.106 | 0.937 | 0.890 | 21.682 | 2.481 | 2.122 | 3.811 | 0.958 |
| Ground Truth | 1.000 | 0.000 | 0.000 | 0.000 | 4.531 | 0.942 | 1.000 | 0.000 | 0.000 | 0.000 | 3.962 | 0.969 |
- CREMA-D 및 HDTF에서 입 모양 싱크 정확도 및 페르소나 보존 면에서 최첨단 기준선을 능가한다.
- SDSE는 의미 콘텐츠로부터 해방된 순수한 스타일 표현을 생성하여 StyleSim 및 입 모양 싱크 지표를 향상시킨다.
- 계층적 모듈레이션은 하안면(입) 정확도와 상안면 다이내믹스를 향상시켜 Sync_conf와 StyleSim을 높인다.
- 특성 제거 연구는 최상의 결과를 위해 메모리 은행, 해방 모듈, 트립렛 손실 및 계층적 스케일의 필요성을 보여준다.
- 정성적 결과는 baselines에 비해 더 자연하고 화자 특유의 표정과 입 모양 움직임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.