QUICK REVIEW

[논문 리뷰] Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Che Sun, Xinjie Zhang|arXiv (Cornell University)|2026. 03. 07.

Face recognition and analysis인용 수 0

한 줄 요약

전역 동적 특징과 로컬로 강화된 다중 모달 신호를 결합하여 단일 카메라 고프레임 비디오로부터 3D 기하를 정교하게 추정하는 미소 표정용 거칠-정밀(Coarse-to-fine) 3D 얼굴 재구성 방법을 제안한다.

ABSTRACT

Recent advances in 3D facial expression reconstruction have demonstrated remarkable performance in capturing macro-expressions, yet the reconstruction of micro-expressions remains unexplored. This novel task is particularly challenging due to the subtle, transient, and low-intensity nature of micro-expressions, which complicate the extraction of stable and discriminative features essential for accurate reconstruction. In this paper, we propose a fine-grained micro-expression reconstruction method that integrates a global dynamic feature capturing stable facial motion patterns with a locally-enriched feature incorporating multiple informative cues from 2D motions, facial priors and 3D facial geometry. Specifically, we devise a plug-and-play dynamic-encoded module to extract micro-expression feature for global facial action, allowing it to leverage prior knowledge from abundant macro-expression data to mitigate the scarcity of micro-expression data. Subsequently, a dynamic-guided mesh deformation module is designed for extracting aggregated local features from dense optical flow, sparse landmark cues and facial mesh geometry, which adaptively refines fine-grained facial micro-expression without compromising global 3D geometry. Extensive experiments on micro-expression datasets demonstrate that our method consistently outperforms state-of-the-art methods in both geometric accuracy and perceptual detail.

연구 동기 및 목표

섬세한 미소 표정이 종종 거대 표현에 집중하는 방법에서 손실되기 쉬운 점을 정확하게 재구성하려는 동기를 제시한다.
글로벌 다이내믹 특성과 2D 운동, 3D 기하학, 얼굴 priors로부터의 로컬로 강화된 단서를 융합하는 거칠-정밀 프레임워크를 개발한다.
동적 인코딩 모듈을 통해 미소 표정 데이터의 희소성을 완화하기 위해 매크로 표현 데이터를 활용한다.
글로벌 구조를 보존하면서 미세한 디테일을 포착하는 다이나믹 가이드 메쉬 변형 모듈로 초기화된 메쉬를 정제한다.

제안 방법

초기 프레임에서 정적 인코더와 옵티컬 플로우의 모션 인코더를 사용하는 플러그-앤-플레이(dynamic-encoded) 모듈을 도입하여 잔차 융합 및 N-ODE 기반 진화로 미소 표정 강화 파라미터를 생성한다.
다중 모달 로컬 특징(3D 기하, 얼굴 랜드마크, 밀도ful 옵티컬-플로우 기반 모션)을 융합하고 모션-어텐션이 있는 그래프 컨볼루션 네트워크로 메쉬를 정제하는 다이나믹 가이드 메쉬 변형 모듈을 적용한다.
광역-영역(pixel-vertex) 대응을 이용해 옵티컬-플로우 단서를 3D 메시 영역에 효율적으로 매핑하여 계산 부하를 줄이면서 식별가능성을 유지한다.
재구성 충실도 손실(광학적, 지각적, 랜드마크, 표정 규제, 감정, 표정 일관성, 신원)과 기하학적 규제 손실(라플라시안 매끄러움, 법선 일관성, 흐름 가이드 정제)을 결합하여 훈련한다.

실험 결과

연구 질문

RQ1매크로 표정에서 학습된 글로벌 동적 표정 특징이 3D에서 섬세한 미소 표정을 재구성하는 데 도움이 되는가?
RQ2다중 모달 로컬 단서(3D 기하, 랜드마크, 2D 모션)가 3D 메시에 대한 정확한 미소 표정 정제를 가능하게 하는 보완 정보를 제공하는가?
RQ3단안 비디오에서 글로벌 얼굴 구조를 보존하면서 미세한 미소 표정을 포착하는 데 거칠-정밀 프레임워크가 효과적인가?
RQ4 region-based motion 매핑과 모션-어텐티브 정제가 재구성 충실도와 인지적 현실감에 어떤 영향을 미치는가?

주요 결과

방법	CASME II 정확도 (%)	CASME 정확도 (%)	SAMM 정확도 (%)	평균 정확도 (%)	L1 손실	VGG 손실	FID
EMOCA	40.00	38.93	31.37	36.77	0.085	1.578	112.37
EMICA	42.50	28.81	29.41	33.57	0.083	1.501	100.04
SMIRK	35.00	44.07	45.10	41.39	0.085	1.032	52.26
SMIRK-FT	46.25	42.37	50.98	46.53	0.050	0.745	33.80
Ours	53.75	44.70	56.86	51.77	0.041	0.700	30.41

제안된 Ours 방법은 CASME II, CASME, 및 SAMM에서 미소 표정 인식 정확도(각각 53.75%, 44.70%, 56.86%; 평균 51.77%)가 EMOCA, EMICA, SMIRK, SMIRK-FT보다 높다.
우리 방법은 평균 WF1 점수(45.52%)가 최저 베이스라인보다 높은 최적치를 보이며 특히 CASME II와 SAMM에서 우수한 성능을 보인다.
재구성 품질 지표가 개선되어 평균적으로 L1 손실(0.041)과 VGG 손실(0.700)이 더 낮아지고 Fréchet Inception Distance(FID 30.41)가 더 좋다.
변동 인코딩 모듈이 정확도에 가장 큰 영향을 미치는 구성요소임을 증명하는 제거 연구가 있으며 DEM이나 DGMD를 제거하면 성능이 크게 하락하고, 다중 모달 특징 및 모든 손실 항목의 중요성이 입증된다.
지역 기반 모션 매핑과 모션 어텐티브 정리는 전역 기하를 유지하면서 미세한 미소 표정을 구별 가능하게 포착하는 데 크게 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.