[論文レビュー] Fine-Grained 3D Facial Reconstruction for Micro-Expressions
わずかの微表情を3D再構成するための粗から細への3D顔再構成手法を提案:グローバルな動的特徴と局所的に強化された多模態手掛かりを組み合わせ、モノクラ(単眼)高フレームレート映像から3Dジオメトリを精練します。
Recent advances in 3D facial expression reconstruction have demonstrated remarkable performance in capturing macro-expressions, yet the reconstruction of micro-expressions remains unexplored. This novel task is particularly challenging due to the subtle, transient, and low-intensity nature of micro-expressions, which complicate the extraction of stable and discriminative features essential for accurate reconstruction. In this paper, we propose a fine-grained micro-expression reconstruction method that integrates a global dynamic feature capturing stable facial motion patterns with a locally-enriched feature incorporating multiple informative cues from 2D motions, facial priors and 3D facial geometry. Specifically, we devise a plug-and-play dynamic-encoded module to extract micro-expression feature for global facial action, allowing it to leverage prior knowledge from abundant macro-expression data to mitigate the scarcity of micro-expression data. Subsequently, a dynamic-guided mesh deformation module is designed for extracting aggregated local features from dense optical flow, sparse landmark cues and facial mesh geometry, which adaptively refines fine-grained facial micro-expression without compromising global 3D geometry. Extensive experiments on micro-expression datasets demonstrate that our method consistently outperforms state-of-the-art methods in both geometric accuracy and perceptual detail.
研究の動機と目的
- 微表情が宏表情に焦点を当てた方法では見落とされやすい点を正確に再構成する動機づけ。
- グローバルな動的特徴と2D運動・3Dジオメトリ・顔プリオールからの局所的に強化された手掛かりを統合する粗から細へのフレームワークを開発。
- 動的エンコードモジュールを通じて微細表情データの不足を緩和するため、マクロ表情データを活用。
- グローバル構造を保持しつつ細かなディテールを捉える動的ガイド付きメッシュ変形モジュールで初期化メッシュを精練。
提案手法
- 開始フレームからの静的エンコーダとオプティカルフロー上のモーションエンコーダを用いて、残差融合とN-ODEベースの進化により微表情強化パラメータを生み出すプラグアンドプレイの動的エンコードモジュールを導入。
- 多模态局所特徴(3Dジオメトリ、顔特徴点、密なオプティカルフローに基づく動作)を統合し、モーション注意機構を備えたグラフ畳み込みネットワークでメッシュを refine する動的ガイド付きメッシュ変形モジュールを適用。
- 光学フローの手掛かりを局所的なメッシュ領域へ効率的にマッピングする領域ベースのピクセル-頂点対応を用い、計算負荷を軽減しつつ識別能力を維持。
- 再構成忠実性損失(フォトメトリック、知覚、ランドマーク、表情正規化、感情、表情整合性、アイデンティティ)とジオメトリ正規化損失(ラプラシアン平滑、法線整合、フローガイドの改良)を組み合わせて訓練。
実験結果
リサーチクエスチョン
- RQ1マクロ表情から学習したグローバルな動的特徴は、3Dにおける微細表情の再構成を改善するか。
- RQ2多模态局所手掛かり(3Dジオメトリ、ランドマーク、2D動作)は、3Dメッシュ上の微表情の refinement に補完的な情報を提供するか。
- RQ3粗から細へのフレームワークは、モノクラ映像からグローバルな顔構造を保持しつつ細かな微表情を捉えるのに有効か。
- RQ4領域ベースのモーションマッピングとモーションアテンティブな refinement は、再構成忠実性と知覚的リアリズムにどのような影響を与えるか。
主な発見
| Method | CASME II Acc (%) | CASME Acc (%) | SAMM Acc (%) | Avg. Acc (%) | L1 Loss | VGG Loss | FID |
|---|---|---|---|---|---|---|---|
| EMOCA | 40.00 | 38.93 | 31.37 | 36.77 | 0.085 | 1.578 | 112.37 |
| EMICA | 42.50 | 28.81 | 29.41 | 33.57 | 0.083 | 1.501 | 100.04 |
| SMIRK | 35.00 | 44.07 | 45.10 | 41.39 | 0.085 | 1.032 | 52.26 |
| SMIRK-FT | 46.25 | 42.37 | 50.98 | 46.53 | 0.050 | 0.745 | 33.80 |
| Ours | 53.75 | 44.70 | 56.86 | 51.77 | 0.041 | 0.700 | 30.41 |
- 提案手法 Ours は、CASME II、CASME、SAMM の各データセットにおいて微表情認識精度が高く、平均 51.77% に達する:それぞれ 53.75%、44.70%、56.86%(Avg 51.77%)で、EMOCA、EMICA、SMIRK、SMIRK-FT を上回る。
- 本手法は平均 WF1 スコア 45.52% を達成し、 CASME II および SAMM で特にベースラインを上回る。
- 再構成品質指標は本手法で改善され、平均で L1 損失 0.041、VGG 損失 0.700、FID 30.41 としてベースラインより有利。
- アブレーション研究により動的エンコードモジュールが精度に最も影響する成分であることが示され、DEM や DGMD を除去すると大幅に低下し、多模态特徴と全損失項の重要性も示される。
- 領域ベースのモーションマッピングとモーションアテンティブな refinement は、全体のジオメトリを維持しつつ微表情の識別性を大幅に高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。