[논문 리뷰] Fine-Grained 3D Facial Reconstruction for Micro-Expressions
전역 동적 특징과 로컬로 강화된 다중 모달 신호를 결합하여 단일 카메라 고프레임 비디오로부터 3D 기하를 정교하게 추정하는 미소 표정용 거칠-정밀(Coarse-to-fine) 3D 얼굴 재구성 방법을 제안한다.
Recent advances in 3D facial expression reconstruction have demonstrated remarkable performance in capturing macro-expressions, yet the reconstruction of micro-expressions remains unexplored. This novel task is particularly challenging due to the subtle, transient, and low-intensity nature of micro-expressions, which complicate the extraction of stable and discriminative features essential for accurate reconstruction. In this paper, we propose a fine-grained micro-expression reconstruction method that integrates a global dynamic feature capturing stable facial motion patterns with a locally-enriched feature incorporating multiple informative cues from 2D motions, facial priors and 3D facial geometry. Specifically, we devise a plug-and-play dynamic-encoded module to extract micro-expression feature for global facial action, allowing it to leverage prior knowledge from abundant macro-expression data to mitigate the scarcity of micro-expression data. Subsequently, a dynamic-guided mesh deformation module is designed for extracting aggregated local features from dense optical flow, sparse landmark cues and facial mesh geometry, which adaptively refines fine-grained facial micro-expression without compromising global 3D geometry. Extensive experiments on micro-expression datasets demonstrate that our method consistently outperforms state-of-the-art methods in both geometric accuracy and perceptual detail.
연구 동기 및 목표
- 섬세한 미소 표정이 종종 거대 표현에 집중하는 방법에서 손실되기 쉬운 점을 정확하게 재구성하려는 동기를 제시한다.
- 글로벌 다이내믹 특성과 2D 운동, 3D 기하학, 얼굴 priors로부터의 로컬로 강화된 단서를 융합하는 거칠-정밀 프레임워크를 개발한다.
- 동적 인코딩 모듈을 통해 미소 표정 데이터의 희소성을 완화하기 위해 매크로 표현 데이터를 활용한다.
- 글로벌 구조를 보존하면서 미세한 디테일을 포착하는 다이나믹 가이드 메쉬 변형 모듈로 초기화된 메쉬를 정제한다.
제안 방법
- 초기 프레임에서 정적 인코더와 옵티컬 플로우의 모션 인코더를 사용하는 플러그-앤-플레이(dynamic-encoded) 모듈을 도입하여 잔차 융합 및 N-ODE 기반 진화로 미소 표정 강화 파라미터를 생성한다.
- 다중 모달 로컬 특징(3D 기하, 얼굴 랜드마크, 밀도ful 옵티컬-플로우 기반 모션)을 융합하고 모션-어텐션이 있는 그래프 컨볼루션 네트워크로 메쉬를 정제하는 다이나믹 가이드 메쉬 변형 모듈을 적용한다.
- 광역-영역(pixel-vertex) 대응을 이용해 옵티컬-플로우 단서를 3D 메시 영역에 효율적으로 매핑하여 계산 부하를 줄이면서 식별가능성을 유지한다.
- 재구성 충실도 손실(광학적, 지각적, 랜드마크, 표정 규제, 감정, 표정 일관성, 신원)과 기하학적 규제 손실(라플라시안 매끄러움, 법선 일관성, 흐름 가이드 정제)을 결합하여 훈련한다.
실험 결과
연구 질문
- RQ1매크로 표정에서 학습된 글로벌 동적 표정 특징이 3D에서 섬세한 미소 표정을 재구성하는 데 도움이 되는가?
- RQ2다중 모달 로컬 단서(3D 기하, 랜드마크, 2D 모션)가 3D 메시에 대한 정확한 미소 표정 정제를 가능하게 하는 보완 정보를 제공하는가?
- RQ3단안 비디오에서 글로벌 얼굴 구조를 보존하면서 미세한 미소 표정을 포착하는 데 거칠-정밀 프레임워크가 효과적인가?
- RQ4 region-based motion 매핑과 모션-어텐티브 정제가 재구성 충실도와 인지적 현실감에 어떤 영향을 미치는가?
주요 결과
| 방법 | CASME II 정확도 (%) | CASME 정확도 (%) | SAMM 정확도 (%) | 평균 정확도 (%) | L1 손실 | VGG 손실 | FID |
|---|---|---|---|---|---|---|---|
| EMOCA | 40.00 | 38.93 | 31.37 | 36.77 | 0.085 | 1.578 | 112.37 |
| EMICA | 42.50 | 28.81 | 29.41 | 33.57 | 0.083 | 1.501 | 100.04 |
| SMIRK | 35.00 | 44.07 | 45.10 | 41.39 | 0.085 | 1.032 | 52.26 |
| SMIRK-FT | 46.25 | 42.37 | 50.98 | 46.53 | 0.050 | 0.745 | 33.80 |
| Ours | 53.75 | 44.70 | 56.86 | 51.77 | 0.041 | 0.700 | 30.41 |
- 제안된 Ours 방법은 CASME II, CASME, 및 SAMM에서 미소 표정 인식 정확도(각각 53.75%, 44.70%, 56.86%; 평균 51.77%)가 EMOCA, EMICA, SMIRK, SMIRK-FT보다 높다.
- 우리 방법은 평균 WF1 점수(45.52%)가 최저 베이스라인보다 높은 최적치를 보이며 특히 CASME II와 SAMM에서 우수한 성능을 보인다.
- 재구성 품질 지표가 개선되어 평균적으로 L1 손실(0.041)과 VGG 손실(0.700)이 더 낮아지고 Fréchet Inception Distance(FID 30.41)가 더 좋다.
- 변동 인코딩 모듈이 정확도에 가장 큰 영향을 미치는 구성요소임을 증명하는 제거 연구가 있으며 DEM이나 DGMD를 제거하면 성능이 크게 하락하고, 다중 모달 특징 및 모든 손실 항목의 중요성이 입증된다.
- 지역 기반 모션 매핑과 모션 어텐티브 정리는 전역 기하를 유지하면서 미세한 미소 표정을 구별 가능하게 포착하는 데 크게 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.