QUICK REVIEW

[논문 리뷰] MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

Renjie Lu, Xulong Zhang|arXiv (Cornell University)|2026. 01. 30.

Face recognition and analysis인용 수 0

한 줄 요약

MirrorTalk은 의미적으로 해방된 스타일 인코더와 시공간 계층적 확산 변조를 이용해 정확한 입 모양 싱크와 화자 특성을 유지한 맞춤 대화 얼굴을 합성한다.

ABSTRACT

Synthesizing personalized talking faces that uphold and highlight a speaker's unique style while maintaining lip-sync accuracy remains a significant challenge. A primary limitation of existing approaches is the intrinsic confounding of speaker-specific talking style and semantic content within facial motions, which prevents the faithful transfer of a speaker's unique persona to arbitrary speech. In this paper, we propose MirrorTalk, a generative framework based on a conditional diffusion model, combined with a Semantically-Disentangled Style Encoder (SDSE) that can distill pure style representations from a brief reference video. To effectively utilize this representation, we further introduce a hierarchical modulation strategy within the diffusion process. This mechanism guides the synthesis by dynamically balancing the contributions of audio and style features across distinct facial regions, ensuring both precise lip-sync accuracy and expressive full-face dynamics. Extensive experiments demonstrate that MirrorTalk achieves significant improvements over state-of-the-art methods in terms of lip-sync accuracy and personalization preservation.

연구 동기 및 목표

입 모양 싱크를 유지하면서 화자 고유의 스타일을 보존하는 개인화된 말하는 얼굴 생성의 필요성을 제시한다.
짧은 참조 영상으로 순수한 스타일을 추출하기 위한 의미적으로 해방된 스타일 인코더(SDSE)를 제안한다.
얼굴 영역별로 오디오와 스타일을 조건부 융합하도록 확산에 시공간 계층적 모듈레이션을 도입한다.
스타일을 콘텐츠로부터 분리하는 것이 입 모양 싱크의 정확도와 화자 페르소나 보존을 향상시킨다는 것을 입증한다.
최신 방법들과의 광범위한 정량적 및 정성적 비교를 제공한다.

제안 방법

짧은 참조 영상에서 의미적으로 해방된 스타일 인코더(SDSE)를 학습하기 위한 2단계 학습 프레임워크를 도입한다.
오디오 의미를 시각 신호와 정렬하기 위한 Motion Expert를 활용한 크로스 모달 감독 체계를 사용한다.
SDSE를 분리 손실과 HSIC 기반 독립성 정규화항 및 트리플렛 손실과 함께 학습시켜 화자 구분 가능하지만 콘텐츠에 독립적인 스타일 표현을 얻는다.
각 타임스텝에서 위쪽(스타일 지배)과 아래쪽(오디오 지배) 얼굴 영역에 대해 오디오 대 스타일 특성을 동적으로 균형 잡도록 시공간 계층적 모듈레이션이 있는 확산 트랜스포머(DiT)를 적용한다.
인코더는 기하학적 3D FLAME 매개변수를 추정하고; 신경 렌더러가 생성된 모션 및 인물 사진으로 최종 비디오 프레임을 합성한다.
CREMA-D, HDTF, VoxCeleb2 유래 합성물에서 SSIM, FID, M-LMD, F-LMD, Sync_conf 및 StyleSim을 사용해 평가한다.

실험 결과

연구 질문

RQ1짧은 참조 영상에서 의미적으로 해방된 스타일 표현을 추출하여 콘텐츠와 무관하게 화자 특유의 말하는 스타일을 포착할 수 있는가?
RQ2영역 인식적이고 계층적 확산 조건화 전략이 개인화된 얼굴 다이내믹스를 보존하면서 입 모양 싱크 정확도를 향상시키는가?
RQ3다양한 데이터셋에서 얼굴 싱크 정확도와 페르소나 보존 측면에서 MirrorTalk이 최첨단 방법들과 어떻게 비교되는가?
RQ4각 구성 요소(메모리 은행, 해방 모듈, 트립렛 손실, 계층적 스케일)가 전체 성능에 미치는 영향은 무엇인가?

주요 결과

방법	SSIM (CREMA-D)	FID (CREMA-D)	M-LMD (CREMA-D)	F-LMD (CREMA-D)	Sync_conf (CREMA-D)	StyleSim (CREMA-D)	SSIM (HDTF)	FID (HDTF)	M-LMD (HDTF)	F-LMD (HDTF)	Sync_conf (HDTF)	StyleSim (HDTF)
Wav2Lip	0.725	32.461	3.025	3.476	4.384	0.826	0.618	38.744	4.121	4.040	3.762	0.841
EAMM	0.414	37.296	6.630	6.819	1.545	0.788	0.396	42.158	6.019	7.135	1.204	0.805
SadTalker	0.762	15.135	4.143	2.804	2.676	0.851	0.664	20.514	3.559	2.926	2.232	0.862
AniTalker	0.726	16.141	5.742	4.052	1.926	0.730	0.593	25.259	6.413	4.547	2.763	0.724
Echomimic	0.912	28.506	4.006	2.612	3.461	0.852	0.879	31.243	3.681	2.851	2.689	0.866
V-Express	0.708	18.074	4.906	4.868	2.130	0.834	0.651	24.061	5.706	5.001	1.593	0.845
Ours	0.917	16.293	2.771	1.824	4.106	0.937	0.890	21.682	2.481	2.122	3.811	0.958
Ground Truth	1.000	0.000	0.000	0.000	4.531	0.942	1.000	0.000	0.000	0.000	3.962	0.969

CREMA-D 및 HDTF에서 입 모양 싱크 정확도 및 페르소나 보존 면에서 최첨단 기준선을 능가한다.
SDSE는 의미 콘텐츠로부터 해방된 순수한 스타일 표현을 생성하여 StyleSim 및 입 모양 싱크 지표를 향상시킨다.
계층적 모듈레이션은 하안면(입) 정확도와 상안면 다이내믹스를 향상시켜 Sync_conf와 StyleSim을 높인다.
특성 제거 연구는 최상의 결과를 위해 메모리 은행, 해방 모듈, 트립렛 손실 및 계층적 스케일의 필요성을 보여준다.
정성적 결과는 baselines에 비해 더 자연하고 화자 특유의 표정과 입 모양 움직임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.