Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Facial Expression Editing using Autoencoded Flow

Raymond A. Yeh, Ziwei Liu|arXiv (Cornell University)|Nov 30, 2016
Generative Adversarial Networks and Image Synthesis参考文献 27被引用数 69
ひとこと要約

本稿では、分離された潜在空間における画素単位のフロー場を学習することで、高品質で意味的な顔の表情編集を可能にするフローバリエーショナルオートエンコーダー(FVAE)を提案する。変分オートエンコーディングと微分可能な光流を組み合わせることで、VAE やフローに基づくベースラインと比較して、特に表情操作や補間の際の顔の細部の保持において、よりシャープで現実的な結果を達成する。

ABSTRACT

High-level manipulation of facial expressions in images --- such as changing a smile to a neutral expression --- is challenging because facial expression changes are highly non-linear, and vary depending on the appearance of the face. We present a fully automatic approach to editing faces that combines the advantages of flow-based face manipulation with the more recent generative capabilities of Variational Autoencoders (VAEs). During training, our model learns to encode the flow from one expression to another over a low-dimensional latent space. At test time, expression editing can be done simply using latent vector arithmetic. We evaluate our methods on two applications: 1) single-image facial expression editing, and 2) facial expression interpolation between two images. We demonstrate that our method generates images of higher perceptual quality than previous VAE and flow-based methods.

研究の動機と目的

  • 画像における高レベルで意味的な顔の表情編集の課題に取り組む。例えば、笑顔を無表情に変更するなど。
  • VAE(曇りの生成)やフローに基づく手法(意味的演算に適した潜在空間の欠如)の限界を克服する。
  • 分離された、フローに基づく潜在空間における潜在ベクトルの算術のみを用いて、現実的で顔の表情編集と補間を可能にする。
  • RGBの幻覚化ではなく、フローに基づくワープによって元の画像の特徴を再利用することで、高解像度の詳細と現実的なテクスチャを維持する。

提案手法

  • 顔の表情間のフロー場を低次元の潜在空間に符号化するフローバリエーショナルオートエンコーダー(FVAE)を学習する。
  • デコーダーは画素単位のフロー場と信頼度マスクを生成し、微分可能なバイリニアサンプリングを用いて元の画像をターゲット表情へワープする。
  • 再構成損失(L2画素差分)、事前分布損失(潜在空間の滑らかさ)、フロー整合性損失の複合損失関数を最適化して FVAE を最適化する。
  • 潜在ベクトルの算術により意味的編集を可能にする:潜在コードの補間や変更により、再学習なしに新しい表情を生成する。
  • フローに基づくアップサンプリングを適用する:高解像度の元画像に適用する前にフロー場をアップスケーリングすることで、細かいディテールを保持する。
  • 一貫した照明と背景を持つ制御されたデータセットを用いて、学習における非表情要因の干渉を低減する。

実験結果

リサーチクエスチョン

  • RQ1顔の表情間のフロー場から学習した潜在空間は、直接的なVAEベースの画像生成と比較して、より現実的で制御可能な意味的編集を可能にするか?
  • RQ2分離された潜在空間におけるフローに基づく操作は、従来のモーフィングや光流と比較して、知覚的品質とディテール保持の面でどのように異なるか?
  • RQ3学習された変換は、学習データセット外のサンプル(異なる画像統計を持つもの)に対してもどの程度一般化可能か?
  • RQ4フローに基づくアップサンプリングは、ピクセルドメインのアップサンプリングと比較して、顔の細かいテクスチャ(例:エッジ、顔の毛)をよりよく保持するか?

主な発見

  • 提案されたFVAE手法は、VAE や光流ベースラインと比較して知覚的品質が優れており、ユーザースタディーで生成画像の59.4%が「本物」と判定された(VAE:35.6%、光流:41.6%)。
  • フローに基づくアップサンプリングは、エッジや顔の毛のテクスチャといった顔の細かいディテールを保持し、ピクセルドメインのアップサンプリングに比べてぼやけにくく、よりシャープな結果を生み出す。
  • 本手法は、一貫性があり自然な遷移を示す顔の表情補間を実現し、クロスフェードやモーフィング技術を凌駆する。
  • モデルは未学習のアイデンティティーや表情に対しても良好に一般化し、学習データとは異なる統計を持つ画像に対しても、現実性を維持する。
  • 本手法は、元の画像の特徴をフローワープによって再利用することで、高解像度出力を効果的に維持しており、VAEで一般的な幻覚化の問題を回避している。
  • 本手法は、トレーニングデータに欠落があるため、小回転を伴う正面顔画像に限定されるが、より多様なトレーニングデータがあれば拡張が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。