[論文レビュー] One-shot Face Reenactment
本稿では、別々のエンコーダと共有デコーダを用いて外見と形状特徴を分離する1ショット顔リエンアクションフレームワークを提案する。これにより、1枚のターゲット画像からの高精細なアイデンティティ保持と現実的な形状転送が可能となる。本手法は、1人あたり1枚の参照画像しか使用しないにもかかわらず、アイデンティティ保持(野生データで98.2%)とポーズ/AU整合性において最先端の性能を達成し、複数枚の画像を用いるベースラインを上回っている。
To enable realistic shape (e.g. pose and expression) transfer, existing face reenactment methods rely on a set of target faces for learning subject-specific traits. However, in real-world scenario end-users often only have one target face at hand, rendering existing methods inapplicable. In this work, we bridge this gap by proposing a novel one-shot face reenactment learning framework. Our key insight is that the one-shot learner should be able to disentangle and compose appearance and shape information for effective modeling. Specifically, the target face appearance and the source face shape are first projected into latent spaces with their corresponding encoders. Then these two latent spaces are associated by learning a shared decoder that aggregates multi-level features to produce the final reenactment results. To further improve the synthesizing quality on mustache and hair regions, we additionally propose FusionNet which combines the strengths of our learned decoder and the traditional warping method. Extensive experiments show that our one-shot face reenactment system achieves superior transfer fidelity as well as identity preserving capability than alternatives. More remarkably, our approach trained with only one target image per subject achieves competitive results to those using a set of target images, demonstrating the practical merit of this work. Code, models and an additional set of reenacted faces have been publicly released at the project page.
研究の動機と目的
- 1枚のターゲットアイデンティティの参照画像しか利用できない状況において、現実的な顔リエンアクションを実現する挑戦に応えること。
- 訓練に複数枚または長時間の動画シーケンスを必要とする従来手法の限界を克服すること。
- 潜在空間における外見と形状表現の分離により、アイデンティティ保持型顔リエンアクションを可能にすること。
- ハイブリッドワーピング・デコーダ融合機構を用いて、ヒゲや髪の毛のような困難な領域の合成品質を向上させること。
- 完全参照手法と同等の性能を示しながら、1人あたり1枚の画像での学習を実現すること。
提案手法
- 別々のエンコーダを用いて、ターゲット顔の外見とソース顔の形状をそれぞれ独立した潜在空間に分離する。
- 外見と形状の両方の潜在表現からのマルチレベル特徴を統合することで、再構築結果を再構成する共有デコーダを訓練する。
- アイデンティティとテクスチャの保持を図るため、自己符号化器ブランチ(再構築)とリエンアクションブランチを併用して、外見エンコーダを共同で監視する。
- FusionNetを導入し、学習済みデコーダ出力と従来のワーピングベースの結果を統合することで、髪の毛やヒゲのような細部領域のリアリズムを向上させる。
- 再構築とリエンアクション監視を組み合わせた重み付き損失を用い、ハイパーパrameter λ が再構築の強調度を制御する。
- 推論時に異なるアイデンティティ間で特徴を整合化するために、空間的に適応的な正規化を適用し、クロスアイデンティティリエンアクションを可能にする。
実験結果
リサーチクエスチョン
- RQ11枚の画像ごとに学習した顔リエンアクションモデルは、1枚の画像からのみでも高精細なアイデンティティ保持を達成できるか?
- RQ21ショット設定において、外見と形状を効果的に分離・合成することで、顔のアイデンティティと表情の転送を維持できるか?
- RQ3ディープラーニングベースの生成と従来のワーピング技術を組み合わせることで、テクスチャや髪の毛領域の品質にどのような影響を与えるか?
- RQ4ショット数の増加(例:1ショット対少数ショット)に伴い、性能はどのように変化するか?
- RQ51枚の画像で学習したモデルは、複数枚の参照画像で学習したモデルと同等の性能を達成できるか?
主な発見
- 提案手法は、野生データでのテストで98.2%のアイデンティティ保持を達成し、最先端の1ショット手法を上回り、1枚の参照画像しか使用しないにもかかわらず、GANimationの性能と同等である。
- 野生データでAU整合性71.1%、ポーズ整合性2.63を達成し、顔の表情とポーズ転送の忠実度が顕著に高いことが示された。
- FusionNetを用いることで、融合なしのベースラインに比べてアイデンティティ保持が平均8.1%向上したが、テクスチャ品質に注力したため、わずかにAU整合性が低下した。
- アブレーションスタディの結果、外見と空間的に適応的なデコーダを連結することで、アイデンティティ保持が11.4ポイント向上(77.7%から89.1%)した。
- 3ショットと5ショットのデータを用いた場合、アイデンティティ保持はそれぞれ99.3%と99.4%に上昇し、データ量の増加に伴い性能向上が確認されたが、1ショットの性能も依然として非常に競争力があることが示された。
- 1枚の画像で学習したモデルは、クロスソースデータで89.1%のアイデンティティ保持を達成し、複数枚の画像に依存する代替手法を顕著に上回った。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。