[論文レビュー] GANimation: Anatomically-aware Facial Animation from a Single Image
GANimationはAU条件付きGANを用いて、単一の顔画像を連続的で解剖学的に実現可能な表情多様体に沿ってアニメーションさせる。監視なしの訓練と顔領域に焦点を当てるアテンションを使用。表情を補間でき、ワイルド画像にも対応する。
Recent advances in Generative Adversarial Networks (GANs) have shown impressive results for task of facial expression synthesis. The most successful architecture is StarGAN, that conditions GANs generation process with images of a specific domain, namely a set of images of persons sharing the same expression. While effective, this approach can only generate a discrete number of expressions, determined by the content of the dataset. To address this limitation, in this paper, we introduce a novel GAN conditioning scheme based on Action Units (AU) annotations, which describes in a continuous manifold the anatomical facial movements defining a human expression. Our approach allows controlling the magnitude of activation of each AU and combine several of them. Additionally, we propose a fully unsupervised strategy to train the model, that only requires images annotated with their activated AUs, and exploit attention mechanisms that make our network robust to changing backgrounds and lighting conditions. Extensive evaluation show that our approach goes beyond competing conditional generators both in the capability to synthesize a much wider range of expressions ruled by anatomically feasible muscle movements, as in the capacity of dealing with images in the wild.
研究の動機と目的
- 連離された感情カテゴリを超えて、連続的で解剖学的に実現可能な顔の表情合成を動機付ける。
- Action Units (AUs) を介して表情を制御し、表情間を補間可能にする。
- 同一人物が異なる表情をとるペア画像を必要とせず、監視なしの訓練フレームワークを開発する。
- 背景や照明の変化をワイルド画像で頑健に扱うための注意機構を組み込む。
提案手法
- GANを連続的な大きさを持つAction-unit activationsのベクターで条件付けする。
- 生成器はattentionマスクAとcolor transformationマスクCを出力し、I_yf = (1−A)·C + A·I_yoを適用する。
- 双方向レンダリングを用いてI_yoをI_yfに、そして元へ戻してI_yoへとマッピングすることで、サイクル状の一貫性を有効にする。
- WGAN-GPのcriticに_auxiliary headを付け、conditioning fidelityのためにAU activationsを回帰させる。
- 損失として、画像敵対損失(WGAN-GP)、Total Variationを用いたattention smoothness、条件付きAU回帰損失、アイデンティティ(cycle)損失を含める。
- 顔領域に変化を集中させつつ非顔領域の内容を保持するアテンション主導のアーキテクチャを実装する。
実験結果
リサーチクエスチョン
- RQ1連続的なAU conditioningは、離散的な感情カテゴリよりも広範で解剖学的に妥当な表現範囲を実現できるか?
- RQ2監視なしのAU-conditioned GANは、同一画像のペア訓練データなしで現実的な表情を生成できるか?
- RQ3アテンション機構を組み込むことで、ワイルドな背景や照明の頑健性とリアリズムは向上するか?
- RQ4モデルは表情間を滑らかに補間し、非正面画像やワイルド画像への編集を適用できるか?
主な発見
- AUの大きさを変えることで解剖学的に一貫した顔の表情を生成でき、滑らかな移行や表情間の補間も可能である。
- アテンション機構は顔領域に変化を集中させ、背景を保持することで、ワイルド画像上でも高品質な結果を実現する。
- DIAT、CycleGAN、IcGAN、StarGANでの離散的感情編集と比較して、GANimationは視覚的品質と解像度が高く、アーティファットを抑えられる。
- 背景の照明変化や非クロップ顔にも対応でき、顔領域へクロップして原画像とアテンションを介して seamlessに統合する。
- 実験により、14個のAUだけで多様な表情を生成する能力が示され、表現力と制御性が豊かであることが示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。