[論文レビュー] FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping
FaceShifter は、ターゲット属性とアイデンティティの適応埋め込みを用いた高忠実度合成を行う AEI-Net と、自己教師付きの遮蔽補正を行う HEAR-Net の2段階顔交換フレームワークを導入し、優れた忠実度とアイデンティティ保持を実現します。
In this work, we propose a novel two-stage framework, called FaceShifter, for high fidelity and occlusion aware face swapping. Unlike many existing face swapping works that leverage only limited information from the target image when synthesizing the swapped face, our framework, in its first stage, generates the swapped face in high-fidelity by exploiting and integrating the target attributes thoroughly and adaptively. We propose a novel attributes encoder for extracting multi-level target face attributes, and a new generator with carefully designed Adaptive Attentional Denormalization (AAD) layers to adaptively integrate the identity and the attributes for face synthesis. To address the challenging facial occlusions, we append a second stage consisting of a novel Heuristic Error Acknowledging Refinement Network (HEAR-Net). It is trained to recover anomaly regions in a self-supervised way without any manual annotations. Extensive experiments on wild faces demonstrate that our face swapping results are not only considerably more perceptually appealing, but also better identity preserving in comparison to other state-of-the-art methods.
研究の動機と目的
- 元のアイデンティティを保持しつつ、顔交換の忠実度と現実感を向上させることを目指す。
- 合成時にターゲット画像の属性(姿勢、表情、照明、背景)を適応的に注入する。
- 手動注釈なしで自己教師付きの補正により遮蔽を処理する。
- 個体ごとの訓練を必要とせず、新しい顔のペアにも適用可能な被写体非依存の交換を実現する。
提案手法
- 適応埋め込み統合ネットワーク(AEI-Net)を用い、アイデンティティとターゲット属性を統合する多層属性エンコーダと適応的注意デノーマライゼーション(AAD)ジェネレータ。
- アイデンティティエンコーダはソースアイデンティティを抽出する。多層属性エンコーダは空間属性情報を保持する。
- AAD 層は、特徴レベル全体でアイデンティティと属性を統合するための注意マスク付きの適応デノーマライゼーションを実行する。
- 2段階パイプライン:Stage 1 が高忠実度の交換顔を生成; Stage 2(HEAR-Net)は、手動注釈なしでヒューリスティック誤差ガイダンスを用いて遮蔽を精錬する。
実験結果
リサーチクエスチョン
- RQ1適応的で多層の属性統合は、顔交換における忠実度と照明的一致を向上させるか?
- RQ2自己教師付き補正段階は、追加ラベルなしでターゲットの遮蔽や希少なアーチファクトを効果的に回復できるか?
- RQ32段階の FaceShifter フレームワークは、野生的な顔や様々な遮蔽に対して頑健か?
主な発見
| 手法 | ID 取得 ↑ | 姿勢 ↓ | 表情 ↓ |
|---|---|---|---|
| DeepFakes | 81.96 | 4.14 | 2.57 |
| FaceSwap | 54.19 | 2.51 | 2.14 |
| Nirkin et al. | 76.57 | 3.29 | 2.33 |
| IPGAN | 82.41 | 4.04 | 2.50 |
| Ours | 97.38 | 2.96 | 2.06 |
- FaceShifter は FaceForensics++ データセットにおいて、以前の方法よりアイデンティティの保持とターゲット属性の忠実度を向上させる。
- 定量的な結果は、基準法と比較してID取得が優れている(97.38)など、ポーズ誤差2.96・表現誤差2.06が小さいことを示す。
- ユーザースタディは、FaceShifter が既存手法より実現感とアイデンティティ・属性整合性に大きな利点を示す。
- HEAR-Net は遮蔽と色の偏差を効果的に回復し、困難な遮蔽や大きな姿勢変動に対する結果を改善する。
- 多層属性と適応的融合を備えた AEI-Net は、単一レベルや非適応ベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。