QUICK REVIEW

[論文レビュー] Adversarial Autoencoders

Alireza Makhzani, Jonathon Shlens|arXiv (Cornell University)|Nov 18, 2015

Generative Adversarial Networks and Image Synthesis参考文献 13被引用数 314

ひとこと要約

この論文は、変分推論と生成的対抗ネットワーク（GANs）を組み合わせた敵対的オートエノード（AAE）を導入する。AAEは、潜在コードの集約事後分布を任意の事前分布に一致させる。エンコーダーを訓練して、識別器がそのコードを事前分布からの本物のサンプルと識別するようにし、敵対的訓練により意味のある生成が可能になる。AAEは、MNIST、SVHN、Toronto Faceデータセットにおいて、半教師あり分類で競争力のある性能を達成し、分離可能な表現学習とクラスタリングを可能にする。

ABSTRACT

In this paper, we propose the "adversarial autoencoder" (AAE), which is a probabilistic autoencoder that uses the recently proposed generative adversarial networks (GAN) to perform variational inference by matching the aggregated posterior of the hidden code vector of the autoencoder with an arbitrary prior distribution. Matching the aggregated posterior to the prior ensures that generating from any part of prior space results in meaningful samples. As a result, the decoder of the adversarial autoencoder learns a deep generative model that maps the imposed prior to the data distribution. We show how the adversarial autoencoder can be used in applications such as semi-supervised classification, disentangling style and content of images, unsupervised clustering, dimensionality reduction and data visualization. We performed experiments on MNIST, Street View House Numbers and Toronto Face datasets and show that adversarial autoencoders achieve competitive results in generative modeling and semi-supervised classification tasks.

研究の動機と目的

従来のRBM や DBN のようなモデルで見られるMCMCベースの学習におけるサンプリング非効率性を回避するスケーラブルな深層生成モデルを開発すること。
変分オートエノード（VAE）の限界を克服するため、敵対的訓練を用いて集約事後分布を事前分布によりよく一致させること。
MCMCサンプリングの必要性を回避するため、バックプロパゲーションによるエンドツーエンドの学習を可能にすること。
AAEが半教師あり学習、分離可能な表現学習、クラスタリング、可視化において有効であることを示すこと。
敵対的正則化がオートエノード埋め込みにおける多様体の破綻を防ぎ、滑らかで意味のある潜在空間をもたらすことを示すこと。

提案手法

AAEは、入力と再構築されたデータの差を最小化するための再構築損失を用いた標準的なオートエノードを使用する。
追加の識別器ネットワークを訓練し、エンコーダーから得られる潜在コードと、指定された事前分布からのサンプルを区別する。
エンコーダーは、識別器が潜在コードを事前分布からの本物のサンプルと分類するように敵対的に訓練され、結果として集約事後分布が事前分布に一致する。
再構築損失と敵対的損失の最適化を交互に繰り返し、確率的勾配降下法を用いる。
半教師ありおよびクラスタリングタスクでは、クラスターヘッド表現とスタイリング表現をモデルに組み込み、閾値未満の近接クラスターヘッドに対して正則化損失を課す。
高次元可視化では、学習された10次元表現を2次元にマッピングする線形変換を用い、スタイリング成分のガウス分布に類似した性質を保持する。

実験結果

リサーチクエスチョン

RQ1敵対的訓練を用いて、オートエノードの集約事後分布を任意の事前分布に一致させることができるか？
RQ2既存のモデルと比較して、AAEは半教師あり分類において競争力のある性能を達成するか？
RQ3AAEは画像データのコンテンツとスタイリングの分離可能な表現を学習できるか？
RQ4敵対的正則化は、オートエノード埋め込みにおける多様体の破綻を防ぎ、滑らかで意味のある潜在空間をもたらすか？
RQ5AAEは、意味のあるクラスタ分離を実現する上で、非教師ありクラスタリングおよび次元削減に効果的に応用できるか？

主な発見

AAEは、MNISTおよびToronto Faceデータセットで競争力あるテスト尤度を達成し、強力な生成モデリング性能を示した。
100ラベルでMNISTを学習した場合、AAEは半教師あり分類誤差率3.90%を達成し、スタイリングとラベルを連結したベースラインAAEを上回った。
100ラベルでMNISTを2次元で学習した場合、AAEは半教師あり分類誤差率4.20%を達成し、2次元で100ラベルのみの場合でも6.08%に留めた。これはラベルの不足に対しても頑健であることを示している。
20クラスタでMNISTに対する非教師ありクラスタリングでは、AAEは数字「1」をまっすぐと傾いている2種類に分離し、数字「6」を傾きに基づき3つのクラスタに分類し、数字「2」をループ付きと非ループ付きに分離した。
AAEは10次元のスタイリング表現を学習し、その分布は可視化と分布解析によりほぼガウス分布に近いことが確認された。
モデルは、類似した画像が類似した潜在コードを持つよう促進することで、多様体の破綻を防ぎ、潜在空間における滑らかで整合性のある表現を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。