QUICK REVIEW

[論文レビュー] Semantic Facial Expression Editing using Autoencoded Flow

Raymond A. Yeh, Ziwei Liu|arXiv (Cornell University)|Nov 30, 2016

Generative Adversarial Networks and Image Synthesis参考文献 27被引用数 69

ひとこと要約

本稿では、分離された潜在空間における画素単位のフロー場を学習することで、高品質で意味的な顔の表情編集を可能にするフローバリエーショナルオートエンコーダー（FVAE）を提案する。変分オートエンコーディングと微分可能な光流を組み合わせることで、VAE やフローに基づくベースラインと比較して、特に表情操作や補間の際の顔の細部の保持において、よりシャープで現実的な結果を達成する。

ABSTRACT

High-level manipulation of facial expressions in images --- such as changing a smile to a neutral expression --- is challenging because facial expression changes are highly non-linear, and vary depending on the appearance of the face. We present a fully automatic approach to editing faces that combines the advantages of flow-based face manipulation with the more recent generative capabilities of Variational Autoencoders (VAEs). During training, our model learns to encode the flow from one expression to another over a low-dimensional latent space. At test time, expression editing can be done simply using latent vector arithmetic. We evaluate our methods on two applications: 1) single-image facial expression editing, and 2) facial expression interpolation between two images. We demonstrate that our method generates images of higher perceptual quality than previous VAE and flow-based methods.

研究の動機と目的

画像における高レベルで意味的な顔の表情編集の課題に取り組む。例えば、笑顔を無表情に変更するなど。
VAE（曇りの生成）やフローに基づく手法（意味的演算に適した潜在空間の欠如）の限界を克服する。
分離された、フローに基づく潜在空間における潜在ベクトルの算術のみを用いて、現実的で顔の表情編集と補間を可能にする。
RGBの幻覚化ではなく、フローに基づくワープによって元の画像の特徴を再利用することで、高解像度の詳細と現実的なテクスチャを維持する。

提案手法

顔の表情間のフロー場を低次元の潜在空間に符号化するフローバリエーショナルオートエンコーダー（FVAE）を学習する。
デコーダーは画素単位のフロー場と信頼度マスクを生成し、微分可能なバイリニアサンプリングを用いて元の画像をターゲット表情へワープする。
再構成損失（L2画素差分）、事前分布損失（潜在空間の滑らかさ）、フロー整合性損失の複合損失関数を最適化して FVAE を最適化する。
潜在ベクトルの算術により意味的編集を可能にする：潜在コードの補間や変更により、再学習なしに新しい表情を生成する。
フローに基づくアップサンプリングを適用する：高解像度の元画像に適用する前にフロー場をアップスケーリングすることで、細かいディテールを保持する。
一貫した照明と背景を持つ制御されたデータセットを用いて、学習における非表情要因の干渉を低減する。

実験結果

リサーチクエスチョン

RQ1顔の表情間のフロー場から学習した潜在空間は、直接的なVAEベースの画像生成と比較して、より現実的で制御可能な意味的編集を可能にするか？
RQ2分離された潜在空間におけるフローに基づく操作は、従来のモーフィングや光流と比較して、知覚的品質とディテール保持の面でどのように異なるか？
RQ3学習された変換は、学習データセット外のサンプル（異なる画像統計を持つもの）に対してもどの程度一般化可能か？
RQ4フローに基づくアップサンプリングは、ピクセルドメインのアップサンプリングと比較して、顔の細かいテクスチャ（例：エッジ、顔の毛）をよりよく保持するか？

主な発見

提案されたFVAE手法は、VAE や光流ベースラインと比較して知覚的品質が優れており、ユーザースタディーで生成画像の59.4％が「本物」と判定された（VAE：35.6％、光流：41.6％）。
フローに基づくアップサンプリングは、エッジや顔の毛のテクスチャといった顔の細かいディテールを保持し、ピクセルドメインのアップサンプリングに比べてぼやけにくく、よりシャープな結果を生み出す。
本手法は、一貫性があり自然な遷移を示す顔の表情補間を実現し、クロスフェードやモーフィング技術を凌駆する。
モデルは未学習のアイデンティティーや表情に対しても良好に一般化し、学習データとは異なる統計を持つ画像に対しても、現実性を維持する。
本手法は、元の画像の特徴をフローワープによって再利用することで、高解像度出力を効果的に維持しており、VAEで一般的な幻覚化の問題を回避している。
本手法は、トレーニングデータに欠落があるため、小回転を伴う正面顔画像に限定されるが、より多様なトレーニングデータがあれば拡張が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。