QUICK REVIEW

[論文レビュー] Adversarial Information Factorization

Antonia Creswell, Yumnah Mohamied|arXiv (Cornell University)|Nov 14, 2017

Generative Adversarial Networks and Image Synthesis参考文献 14被引用数 20

ひとこと要約

本論文は、顔のアイデンティティを二値属性（例：笑顔）から分離するため、要因分解された潜在表現を学習する、新しいVAE-GANアーキテクチャである情報要因分解条件付きVAE-GANを提案する。モデルは敵対的訓練を用いて潜在空間における属性の独立性を強制し、アイデンティティを変更せずに正確な属性編集を可能にする。顔属性分類において最先端の性能を達成するとともに、90％以上のテストケースで属性を正しく編集している。

ABSTRACT

We propose a novel generative model architecture designed to learn representations for images that factor out a single attribute from the rest of the representation. A single object may have many attributes which when altered do not change the identity of the object itself. Consider the human face; the identity of a particular person is independent of whether or not they happen to be wearing glasses. The attribute of wearing glasses can be changed without changing the identity of the person. However, the ability to manipulate and alter image attributes without altering the object identity is not a trivial task. Here, we are interested in learning a representation of the image that separates the identity of an object (such as a human face) from an attribute (such as 'wearing glasses'). We demonstrate the success of our factorization approach by using the learned representation to synthesize the same face with and without a chosen attribute. We refer to this specific synthesis process as image attribute manipulation. We further demonstrate that our model achieves competitive scores, with state of the art, on a facial attribute classification task.

研究の動機と目的

笑顔や眼鏡の着用といった特定の二値属性から顔のアイデンティティを分離する生成モデルを開発すること。
オブジェクトのアイデンティティを変更せずに、単一の潜在ユニットのみを変更することで、画像属性を正確に操作できるようにすること。
同じエンコーダーネットワークを用いて顔属性分類で最先端の性能を達成すること。
条件付き画像生成と属性編集の違いを明確にし、既存のカテゴリ条件付きモデルが細分化された属性制御には不十分であることを示すこと。
アイデンティティ表現から属性情報を明示的に要因分解することが、効果的で安定した属性編集に不可欠であることを示すこと。

提案手法

連続的なアイデンティティベクトルと二値属性ベクトルからなる分離された潜在空間を持つ、条件付きVAE-GANフレームワークを採用する。
属性ベクトルに敵対的損失を適用し、それがアイデンティティ関連特徴を含まないよう保証する。
アイデンティティ表現が属性ベクトルの変化に対して不変であるよう促進する、新しいコスト関数をエンコーダーに適用する。
分類器ヘッドをエンコーダーに統合し、生成と属性分類の両方をエンドツーエンドで訓練可能にする。
画像編集は、アイデンティティベクトルを固定したまま、二値属性ユニットを0から1、またはその逆に反転させることで行う。
再パラメータライゼーショントリックをガウスノイズとともに用いて事後分布からのサンプリングを行い、VAE目的関数の微分可能訓練を可能にする。

実験結果

リサーチクエスチョン

RQ1生成モデルは、笑顔や眼鏡の着用といった二値属性から顔のアイデンティティを分離する潜在表現を学習できるか？
RQ2アイデンティティ表現から属性情報を要因分解することで、標準の条件付きGANやVAEと比較して、より安定的かつ正確な属性編集が可能になるか？
RQ3分離された表現学習に用いられたエンコーダーは、顔属性分類においても最先端の性能を達成できるか？
RQ4損失関数の各構成要素が、属性編集および分類の全体的な性能にどのように寄与しているか？
RQ5カテゴリ条件付き画像生成と属性レベルの編集の違いは何か？なぜ既存のモデルは後者には失敗するのか？

主な発見

モデルは、90％以上のテストケースで笑顔などの顔属性を、人物のアイデンティティを変更せずに正しく編集している。
顔属性分類においても、競争力があり、いくつかの属性では既存のモデルを上回る最先端の精度を達成している。
アブレーションスタディにより、提案された損失構成要素が分離と効果的な属性編集に不可欠であることが確認された。
アイデンティティと属性表現を明示的に分離することが、編集時に他の属性が意図せず変化するのを防ぐために重要であることが示された。
ペアドジェネレータを各ドメインごとに必要とする画像対画像変換モデルと比較して、効率性が優れている。1つの生成モデルで十分である。
従来の反復的または微分不能なアプローチとは異なり、1つのバイナリユニットの変更のみでエンドツーエンドかつワンステップで属性編集が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。