QUICK REVIEW

[論文レビュー] Adversarial Feature Learning

Jeff Donahue, Philipp Krähenbühl|arXiv (Cornell University)|May 31, 2016

Generative Adversarial Networks and Image Synthesis参考文献 31被引用数 721

ひとこと要約

BiGANsは、エンコーダと生成器および識別器を同時に学習することでGANの逆写像を学習し、下流タスクのための有用な教師なし特徴を得る。

ABSTRACT

The ability of the Generative Adversarial Networks (GANs) framework to learn generative models mapping from simple latent distributions to arbitrarily complex data distributions has been demonstrated empirically, with compelling results showing that the latent space of such generators captures semantic variation in the data distribution. Intuitively, models trained to predict these semantic latent representations given data may serve as useful feature representations for auxiliary problems where semantics are relevant. However, in their existing form, GANs have no means of learning the inverse mapping -- projecting data back into the latent space. We propose Bidirectional Generative Adversarial Networks (BiGANs) as a means of learning this inverse mapping, and demonstrate that the resulting learned feature representation is useful for auxiliary supervised discrimination tasks, competitive with contemporary approaches to unsupervised and self-supervised feature learning.

研究の動機と目的

GANsを介した教師なし特徴学習をデータから潜在空間への逆写像を学ぶことによって動機づける。
データを潜在コードに写像するエンコーダを持つBidirectional Generative Adversarial Networks (BiGANs)を導入する。
最適識別器、生成器、エンコーダの理論的解析と逆写像特性を示す。
MNISTとImageNetでBiGANsを実験的に評価し、学習された特徴の教師ありタスクへの転移性を評価する。

提案手法

データxを潜在zへ写像するエンコーダEを追加してGANを拡張する。
識別器を、実データの(x, z)対と生成データの(G(z), z)対を評価するように変更する。
最小最大目的関数V(D,E,G)を最適化し、Dに対して最大化、E,Gに対しては最小化する（式3）。
最適条件でP_EXがP_GZに等しく、EとGがほぼ全領域で互いを逆写像することを証明する（定理1と2）。
最適設定ではBiGANが0/1スタイルのオートエンコーダー損失に対応することを示す（定理3）。
g_Xとg_Zを用いて異なる入力/出力空間を扱えるようBiGANを一般化する（セクション3.5）。
標準的な交互勾配法と実用的な“逆の目的”を用いたBiGANの訓練（より強い勾配のための手法）を実装する（セクション3.4）。

実験結果

リサーチクエスチョン

RQ1BiGANsはエンコーダと生成器・識別器を共に学習することでGANの意味のある逆写像を学習できるか？
RQ2BiGANsはラベルなしデータで下流の教師ありタスクに有用な潜在表現を生み出すか？
RQ3BiGANsの最適性とエンコーダ・生成器の逆写像に関する理論的性質は何か？
RQ4BiGANsは実世界の画像データセットで他の教師なし/自己教師あり特徴学習法と比較してどうか？
RQ5BiGANフレームワークは高解像度入力や異なる特徴空間へどう拡張されるか？

主な発見

方法	1NN 精度 (%) MNIST (置換不変)
BiGAN	97.39
D (Discriminator only)	97.30
LR (Latent Regressor)	97.44
JLR (Joint Latent Regressor)	97.13
AE (ℓ2)	97.58
AE (ℓ1)	97.63

BiGANの目的は結合分布P_EXとP_GZ間のジェンセン–シャノンダイバージェンスを生み出し、全体の最適解はP_EX = P_GZである。
最適条件でエンコーダと生成器はほぼ全領域で互いを逆写像する（データ領域では G(E(x)) = x、潜在領域では E(G(z)) = z）。
BiGANのエンコーダは潜在表現として機能する特徴を学習し、データ構造を仮定せずに意味属性を表現するℓ0オートエンコーダーに類似した目的を果たす。
置換不変のMNISTで、BiGANの特徴は latent regressor やオートエンコーダーなどのベースラインと比べて競争力のある1NN精度を達成する（97.39% 対 97.30–97.63% の範囲）。
ImageNetでは、事前学習特徴抽出器として用いた場合に転移性能が競争力を持ち、学習フィルタや再構成の定性的向上が見られる（図3・図4）。
BiGAN表現はPASCAL VOCタスク（分類／検出／セグメンテーション）へ現代の教師なし/自己教師あり法と整合的に転移する（表3）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。