QUICK REVIEW

[論文レビュー] Invertible Conditional GANs for image editing

Guim Perarnau, Joost van de Weijer|arXiv (Cornell University)|Nov 19, 2016

Generative Adversarial Networks and Image Synthesis参考文献 12被引用数 584

ひとこと要約

IcGANs は、エンコーダを条件付き GAN と組み合わせて実画像を潜在空間に写像し、条件付き属性を介して編集する。これにより、決定論的で複雑な画像の変更が可能になる。

ABSTRACT

Generative Adversarial Networks (GANs) have recently demonstrated to successfully approximate complex data distributions. A relevant extension of this model is conditional GANs (cGANs), where the introduction of external information allows to determine specific representations of the generated images. In this work, we evaluate encoders to inverse the mapping of a cGAN, i.e., mapping a real image into a latent space and a conditional representation. This allows, for example, to reconstruct and modify real images of faces conditioning on arbitrary attributes. Additionally, we evaluate the design of cGANs. The combination of an encoder with a cGAN, which we call Invertible cGAN (IcGAN), enables to re-generate real images with deterministic complex modifications.

研究の動機と目的

推論（エンコーダ）と条件付き画像生成を組み合わせることにより、複雑な画像編集を動機づけて可能にする。
実画像を潜在 z と条件 y 空間へ写像することを学び、可制御な編集を実現する。
GAN アーキテクチャにおけるエンコーダ設計と条件情報の配置を評価する。
MNIST および CelebA データセットでの編集を実演し、再構成品質と属性制御を分析する。

提案手法

IcGANs を導入し、エンコーダを cGAN と統合して (z, y) = E(x) を得り、x' = G(z, y) を再構成する。
E を二部構成で訓練する：Ez は G(z, y′) 出力から潜在 z を回復し、Ey は実画像から属性 y を回復する。
エンコーダ設計（SNG, IND, IND-COND）を調査し、IND が最も効果的であると判断。
cGAN の二つの設計決定を検討する：生成器と識別器における条件ベクトル y の最適な配置、および py からの y′ のサンプリング。
条件付けされた生成画像が条件属性をどれだけ反映しているかを測るため、属性予測器（Anet）を用いて cGAN の条件付けを評価する。
CelebA および MNIST データセットを用いて、再構成品質と属性操作を検証する。

実験結果

リサーチクエスチョン

RQ1実画像から潜在表現と属性表現を回復するために、条件付き GAN を反転させるエンコーダを学習できるか？
RQ2生成器と識別器における条件情報 y の統合戦略として、属性忠実性を最大化する最良の方法は何か？
RQ3どのエンコーダ設計（SNG, IND, IND-COND）が最も正確な潜在と属性の再構成をもたらすか？
RQ4IcGANs は MNIST および CelebA で実画像をどれだけよく再構成し、属性を制御した変更を許容するか？
RQ5潜在 z の補間や属性 y の交換は、画像間で妥当で滑らかな遷移を生み出すか？

主な発見

Model	Mean accuracy (Discriminator)	Mean F1-Score (Discriminator)	Mean accuracy (Generator)	Mean F1-Score (Generator)
CelebA テストセット	92.78%	71.47%	92.78%	71.47%
$y$を入力に挿入	85.74%	49.63%	89.83%	59.69%
y をレイヤー 1 に挿入	86.01%	52.42%	87.16%	52.40%
レイヤー 2	84.90%	50.00%	82.49%	52.36%
レイヤー 3	85.96%	52.38%	82.49%	38.01%
レイヤー 4	77.61%	19.49%	73.90%	4.03%

IcGAN は実画像を潜在 z と属性 y に写像できるため、再構成と属性ベースの複雑な編集が可能になる。
最適な cGAN 条件付けの位置は、生成器の入力と識別器の最初の層に y を挿入することで属性忠実性が最大となる。
z と y の二つの独立したエンコーダ（IND）は、テストされた構成の中で最も低い再構成誤差を提供する。
y 条件付きの生成 CelebA 画像の属性予測精度は、属性ごとの平均精度で約 86% に達し、ネットワークの初期段階で y が条件付けされると忠実性が高い。
IcGAN の再構成は高レベル特徴を保持し、CelebA および MNIST で意味のある属性編集を可能にし、実画像間の滑らかな補間と属性転送を実現する。
再構成サンプルは、訓練データ以外の未知の実画像の操作にも一般化することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。