QUICK REVIEW

[論文レビュー] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

Xi Chen, Yan Duan|arXiv (Cornell University)|Jun 11, 2016

Generative Adversarial Networks and Image Synthesis参考文献 23被引用数 2,416

ひとこと要約

InfoGAN は GAN を情報理論的正規化で拡張し、潜在コードのサブセットと生成画像との間の相互情報を最大化することで、教師なしで解釈可能で分離された表現を学習可能にする。

ABSTRACT

This paper describes InfoGAN, an information-theoretic extension to the Generative Adversarial Network that is able to learn disentangled representations in a completely unsupervised manner. InfoGAN is a generative adversarial network that also maximizes the mutual information between a small subset of the latent variables and the observation. We derive a lower bound to the mutual information objective that can be optimized efficiently, and show that our training procedure can be interpreted as a variation of the Wake-Sleep algorithm. Specifically, InfoGAN successfully disentangles writing styles from digit shapes on the MNIST dataset, pose from lighting of 3D rendered images, and background digits from the central digit on the SVHN dataset. It also discovers visual concepts that include hair styles, presence/absence of eyeglasses, and emotions on the CelebA face dataset. Experiments show that InfoGAN learns interpretable representations that are competitive with representations learned by existing fully supervised methods.

研究の動機と目的

ラベルなしで分離表現の教師なし学習を動機づける。
意味のある潜在因子を学習するための情報理論的な拡張を GAN に導入する。
MNIST、SVHN、CelebA、3D データセット全体で手法がセマンティック概念を発見することを示す。
潜在コードが生成出力を意味的に制御するようなスケーラブルで訓練可能な目的を提供する。

提案手法

GAN の入力を不可圧縮ノイズ z と潜在コード c に分解して生成 G(z, c) を指示する。
ミューチュアル情報項 I(c; G(z, c)) をハイパーパラメータ λ で正則化した minimax 目的を導入する。
補助分布 Q(c|x) を用いて P(c|x) を近似する変分下限 LI(G, Q) を導出する。
D, G, Q をエンドツーエンドで訓練し、単純な再パラメータ化トリックで V(D, G) − λLI(G, Q) を最大化する。
Q をディスクリミネータ D と層を共有するニューラルネットワークとしてパラメータ化し、追加コストをほとんど生じさせない。
Q 内で離散コードにはソフトマックス、連続コードには対角ガウスを使用する。

実験結果

リサーチクエスチョン

RQ1情報理論的正則化は教師なし GAN フレームワークで解釈可能な潜在因子を誘発できるか。
RQ2潜在コード c は、監視なしで diverse datasets across (データセット名) の意味的に有意な変化（例：数字の形状、ポーズ、照明、髪型）に対応するか。
RQ3InfoGAN の学習表現は、分離度と下流タスクへの有用性の点で supervised 手法と比較してどうか。

主な発見

InfoGAN は MNIST で LI(G, Q) を迅速に最大化してエントロピー H(c) に達し、境界が厳密かつ最大の相互情報が得られることを示す。
MNIST では、単一の離散コードが数字種別を捉え、連続コードが回転と幅をモデル化し、有意で一般化可能な変化を示す。
3D 顔と椅子では、InfoGAN は方位角、仰角、照明などの連続要因、監視なしで連続的な姿勢や幅の変動を学習する。
SVHN では、InfoGAN は照明や中央の数字文脈などの要因を学習するが、ノイズの多い乱れた画像にも対応。
CelebA では、InfoGAN は方位角、眼鏡の有無、髪型、感情をラベルなしで発見し、高度な意味的分離を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。