Skip to main content
QUICK REVIEW

[논문 리뷰] Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Che Sun, Xinjie Zhang|arXiv (Cornell University)|2026. 03. 07.
Face recognition and analysis인용 수 0
한 줄 요약

전역 동적 특징과 로컬로 강화된 다중 모달 신호를 결합하여 단일 카메라 고프레임 비디오로부터 3D 기하를 정교하게 추정하는 미소 표정용 거칠-정밀(Coarse-to-fine) 3D 얼굴 재구성 방법을 제안한다.

ABSTRACT

Recent advances in 3D facial expression reconstruction have demonstrated remarkable performance in capturing macro-expressions, yet the reconstruction of micro-expressions remains unexplored. This novel task is particularly challenging due to the subtle, transient, and low-intensity nature of micro-expressions, which complicate the extraction of stable and discriminative features essential for accurate reconstruction. In this paper, we propose a fine-grained micro-expression reconstruction method that integrates a global dynamic feature capturing stable facial motion patterns with a locally-enriched feature incorporating multiple informative cues from 2D motions, facial priors and 3D facial geometry. Specifically, we devise a plug-and-play dynamic-encoded module to extract micro-expression feature for global facial action, allowing it to leverage prior knowledge from abundant macro-expression data to mitigate the scarcity of micro-expression data. Subsequently, a dynamic-guided mesh deformation module is designed for extracting aggregated local features from dense optical flow, sparse landmark cues and facial mesh geometry, which adaptively refines fine-grained facial micro-expression without compromising global 3D geometry. Extensive experiments on micro-expression datasets demonstrate that our method consistently outperforms state-of-the-art methods in both geometric accuracy and perceptual detail.

연구 동기 및 목표

  • 섬세한 미소 표정이 종종 거대 표현에 집중하는 방법에서 손실되기 쉬운 점을 정확하게 재구성하려는 동기를 제시한다.
  • 글로벌 다이내믹 특성과 2D 운동, 3D 기하학, 얼굴 priors로부터의 로컬로 강화된 단서를 융합하는 거칠-정밀 프레임워크를 개발한다.
  • 동적 인코딩 모듈을 통해 미소 표정 데이터의 희소성을 완화하기 위해 매크로 표현 데이터를 활용한다.
  • 글로벌 구조를 보존하면서 미세한 디테일을 포착하는 다이나믹 가이드 메쉬 변형 모듈로 초기화된 메쉬를 정제한다.

제안 방법

  • 초기 프레임에서 정적 인코더와 옵티컬 플로우의 모션 인코더를 사용하는 플러그-앤-플레이(dynamic-encoded) 모듈을 도입하여 잔차 융합 및 N-ODE 기반 진화로 미소 표정 강화 파라미터를 생성한다.
  • 다중 모달 로컬 특징(3D 기하, 얼굴 랜드마크, 밀도ful 옵티컬-플로우 기반 모션)을 융합하고 모션-어텐션이 있는 그래프 컨볼루션 네트워크로 메쉬를 정제하는 다이나믹 가이드 메쉬 변형 모듈을 적용한다.
  • 광역-영역(pixel-vertex) 대응을 이용해 옵티컬-플로우 단서를 3D 메시 영역에 효율적으로 매핑하여 계산 부하를 줄이면서 식별가능성을 유지한다.
  • 재구성 충실도 손실(광학적, 지각적, 랜드마크, 표정 규제, 감정, 표정 일관성, 신원)과 기하학적 규제 손실(라플라시안 매끄러움, 법선 일관성, 흐름 가이드 정제)을 결합하여 훈련한다.

실험 결과

연구 질문

  • RQ1매크로 표정에서 학습된 글로벌 동적 표정 특징이 3D에서 섬세한 미소 표정을 재구성하는 데 도움이 되는가?
  • RQ2다중 모달 로컬 단서(3D 기하, 랜드마크, 2D 모션)가 3D 메시에 대한 정확한 미소 표정 정제를 가능하게 하는 보완 정보를 제공하는가?
  • RQ3단안 비디오에서 글로벌 얼굴 구조를 보존하면서 미세한 미소 표정을 포착하는 데 거칠-정밀 프레임워크가 효과적인가?
  • RQ4 region-based motion 매핑과 모션-어텐티브 정제가 재구성 충실도와 인지적 현실감에 어떤 영향을 미치는가?

주요 결과

방법CASME II 정확도 (%)CASME 정확도 (%)SAMM 정확도 (%)평균 정확도 (%)L1 손실VGG 손실FID
EMOCA40.0038.9331.3736.770.0851.578112.37
EMICA42.5028.8129.4133.570.0831.501100.04
SMIRK35.0044.0745.1041.390.0851.03252.26
SMIRK-FT46.2542.3750.9846.530.0500.74533.80
Ours53.7544.7056.8651.770.0410.70030.41
  • 제안된 Ours 방법은 CASME II, CASME, 및 SAMM에서 미소 표정 인식 정확도(각각 53.75%, 44.70%, 56.86%; 평균 51.77%)가 EMOCA, EMICA, SMIRK, SMIRK-FT보다 높다.
  • 우리 방법은 평균 WF1 점수(45.52%)가 최저 베이스라인보다 높은 최적치를 보이며 특히 CASME II와 SAMM에서 우수한 성능을 보인다.
  • 재구성 품질 지표가 개선되어 평균적으로 L1 손실(0.041)과 VGG 손실(0.700)이 더 낮아지고 Fréchet Inception Distance(FID 30.41)가 더 좋다.
  • 변동 인코딩 모듈이 정확도에 가장 큰 영향을 미치는 구성요소임을 증명하는 제거 연구가 있으며 DEM이나 DGMD를 제거하면 성능이 크게 하락하고, 다중 모달 특징 및 모든 손실 항목의 중요성이 입증된다.
  • 지역 기반 모션 매핑과 모션 어텐티브 정리는 전역 기하를 유지하면서 미세한 미소 표정을 구별 가능하게 포착하는 데 크게 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.