Skip to main content
QUICK REVIEW

[논문 리뷰] MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

Renjie Lu, Xulong Zhang|arXiv (Cornell University)|2026. 01. 30.
Face recognition and analysis인용 수 0
한 줄 요약

MirrorTalk은 의미적으로 해방된 스타일 인코더와 시공간 계층적 확산 변조를 이용해 정확한 입 모양 싱크와 화자 특성을 유지한 맞춤 대화 얼굴을 합성한다.

ABSTRACT

Synthesizing personalized talking faces that uphold and highlight a speaker's unique style while maintaining lip-sync accuracy remains a significant challenge. A primary limitation of existing approaches is the intrinsic confounding of speaker-specific talking style and semantic content within facial motions, which prevents the faithful transfer of a speaker's unique persona to arbitrary speech. In this paper, we propose MirrorTalk, a generative framework based on a conditional diffusion model, combined with a Semantically-Disentangled Style Encoder (SDSE) that can distill pure style representations from a brief reference video. To effectively utilize this representation, we further introduce a hierarchical modulation strategy within the diffusion process. This mechanism guides the synthesis by dynamically balancing the contributions of audio and style features across distinct facial regions, ensuring both precise lip-sync accuracy and expressive full-face dynamics. Extensive experiments demonstrate that MirrorTalk achieves significant improvements over state-of-the-art methods in terms of lip-sync accuracy and personalization preservation.

연구 동기 및 목표

  • 입 모양 싱크를 유지하면서 화자 고유의 스타일을 보존하는 개인화된 말하는 얼굴 생성의 필요성을 제시한다.
  • 짧은 참조 영상으로 순수한 스타일을 추출하기 위한 의미적으로 해방된 스타일 인코더(SDSE)를 제안한다.
  • 얼굴 영역별로 오디오와 스타일을 조건부 융합하도록 확산에 시공간 계층적 모듈레이션을 도입한다.
  • 스타일을 콘텐츠로부터 분리하는 것이 입 모양 싱크의 정확도와 화자 페르소나 보존을 향상시킨다는 것을 입증한다.
  • 최신 방법들과의 광범위한 정량적 및 정성적 비교를 제공한다.

제안 방법

  • 짧은 참조 영상에서 의미적으로 해방된 스타일 인코더(SDSE)를 학습하기 위한 2단계 학습 프레임워크를 도입한다.
  • 오디오 의미를 시각 신호와 정렬하기 위한 Motion Expert를 활용한 크로스 모달 감독 체계를 사용한다.
  • SDSE를 분리 손실과 HSIC 기반 독립성 정규화항 및 트리플렛 손실과 함께 학습시켜 화자 구분 가능하지만 콘텐츠에 독립적인 스타일 표현을 얻는다.
  • 각 타임스텝에서 위쪽(스타일 지배)과 아래쪽(오디오 지배) 얼굴 영역에 대해 오디오 대 스타일 특성을 동적으로 균형 잡도록 시공간 계층적 모듈레이션이 있는 확산 트랜스포머(DiT)를 적용한다.
  • 인코더는 기하학적 3D FLAME 매개변수를 추정하고; 신경 렌더러가 생성된 모션 및 인물 사진으로 최종 비디오 프레임을 합성한다.
  • CREMA-D, HDTF, VoxCeleb2 유래 합성물에서 SSIM, FID, M-LMD, F-LMD, Sync_conf 및 StyleSim을 사용해 평가한다.

실험 결과

연구 질문

  • RQ1짧은 참조 영상에서 의미적으로 해방된 스타일 표현을 추출하여 콘텐츠와 무관하게 화자 특유의 말하는 스타일을 포착할 수 있는가?
  • RQ2영역 인식적이고 계층적 확산 조건화 전략이 개인화된 얼굴 다이내믹스를 보존하면서 입 모양 싱크 정확도를 향상시키는가?
  • RQ3다양한 데이터셋에서 얼굴 싱크 정확도와 페르소나 보존 측면에서 MirrorTalk이 최첨단 방법들과 어떻게 비교되는가?
  • RQ4각 구성 요소(메모리 은행, 해방 모듈, 트립렛 손실, 계층적 스케일)가 전체 성능에 미치는 영향은 무엇인가?

주요 결과

방법SSIM (CREMA-D)FID (CREMA-D)M-LMD (CREMA-D)F-LMD (CREMA-D)Sync_conf (CREMA-D)StyleSim (CREMA-D)SSIM (HDTF)FID (HDTF)M-LMD (HDTF)F-LMD (HDTF)Sync_conf (HDTF)StyleSim (HDTF)
Wav2Lip0.72532.4613.0253.4764.3840.8260.61838.7444.1214.0403.7620.841
EAMM0.41437.2966.6306.8191.5450.7880.39642.1586.0197.1351.2040.805
SadTalker0.76215.1354.1432.8042.6760.8510.66420.5143.5592.9262.2320.862
AniTalker0.72616.1415.7424.0521.9260.7300.59325.2596.4134.5472.7630.724
Echomimic0.91228.5064.0062.6123.4610.8520.87931.2433.6812.8512.6890.866
V-Express0.70818.0744.9064.8682.1300.8340.65124.0615.7065.0011.5930.845
Ours0.91716.2932.7711.8244.1060.9370.89021.6822.4812.1223.8110.958
Ground Truth1.0000.0000.0000.0004.5310.9421.0000.0000.0000.0003.9620.969
  • CREMA-D 및 HDTF에서 입 모양 싱크 정확도 및 페르소나 보존 면에서 최첨단 기준선을 능가한다.
  • SDSE는 의미 콘텐츠로부터 해방된 순수한 스타일 표현을 생성하여 StyleSim 및 입 모양 싱크 지표를 향상시킨다.
  • 계층적 모듈레이션은 하안면(입) 정확도와 상안면 다이내믹스를 향상시켜 Sync_conf와 StyleSim을 높인다.
  • 특성 제거 연구는 최상의 결과를 위해 메모리 은행, 해방 모듈, 트립렛 손실 및 계층적 스케일의 필요성을 보여준다.
  • 정성적 결과는 baselines에 비해 더 자연하고 화자 특유의 표정과 입 모양 움직임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.