QUICK REVIEW

[論文レビュー] Learning Latent Subspaces in Variational Autoencoders

Jack Klys, Jake Snell|arXiv (Cornell University)|Dec 14, 2018

Generative Adversarial Networks and Image Synthesis被引用数 71

ひとこと要約

この論文は Conditional Subspace VAE (CSVAE) を導入し、二値ラベルごとに低次元潜在サブスペースを学習してラベル関連の変動を捉え、画像の属性の解釈と操作を容易にします。

ABSTRACT

Variational autoencoders (VAEs) are widely used deep generative models capable of learning unsupervised latent representations of data. Such representations are often difficult to interpret or control. We consider the problem of unsupervised learning of features correlated to specific labels in a dataset. We propose a VAE-based generative model which we show is capable of extracting features correlated to binary labels in the data and structuring it in a latent subspace which is easy to interpret. Our model, the Conditional Subspace VAE (CSVAE), uses mutual information minimization to learn a low-dimensional latent subspace associated with each label that can easily be inspected and independently manipulated. We demonstrate the utility of the learned representations for attribute manipulation tasks on both the Toronto Face and CelebA datasets.

研究の動機と目的

VAE フレームワーク内で二値ラベルと相関する特徴の無監督発見を動機づける。
各 W_i がラベル特異的サブスペースを捉える Z × W の潜在空間分割を導入する。
ラベル関連情報を分離するため Z と Y の間の相互情報を低く保つ。
Toronto Faces Dataset (TFD) および CelebA データセットで属性操作とクラス内分散モデルの改善を実証する。

提案手法

潜在空間 Z と W = ∏ W_i を持つ結合生成モデル p(x, y, z, w) を定義し、各 W_i が二値ラベル y_i に対応する。
Z と Y の独立性を促進する相互情報最小化項 I(Y; Z) を組み込んだ変分下限を導出する。
q_phi(z, w | x, y) と p_theta(x | z, w) を実装し、条件エントロピー H(Y|Z) を最大化する予測器 q_delta(y | z) を含む敵対的風の目的を用いる。
q_phi, q_gamma, p_theta にはガウス型ニューラルネットワークを、 q_delta(y | z) には Cat 分布を使用する。
各 W_i を低次元のサブスペースとして位置づける（例: W_i ∈ R^2）ことで直感的な属性操作と切替を可能にする。
再構成項、KL項、および相互情報関連項を組み合わせた重み付き目的関数で訓練し、beta ハイパーパラメータで調整する。

実験結果

リサーチクエスチョン

RQ1VAEs でクラス特異ラベルに結びつく潜在サブスペースを無監視または半監督的に学習できるか。
RQ2Z と Y の間の相互情報を低く保つことは、分離された、操作可能でラベルに関連するサブスペースを生み出すか。
RQ3このようなサブスペースは CelebA や TFD のような実データセットでより豊かでコントロール可能な属性操作を可能にするか。
RQ4CSVAE は intra-class variation の捉え方や属性転送の実現性において CondVAE 系と比べてどうか。

主な発見

モデル	TFD	CelebA-メガネ	CelebA-ひげ
VAE	19.08%	25.03%	49.81%
CondVAE	62.97%	96.04%	88.93%
CondVAE- info	62.27%	95.16%	88.03%
CSVAE (ours)	76.23%	99.59%	97.75%

CSVAE は両データセットの TFD および CelebA において、属性操作の精度がベースラインモデルより高い。
CSVAE は各二値ラベルに対して分離された直感的に解釈可能なサブスペース W を学習し、属性転送とスタイル操作を容易にする。
定量的結果は、属性変更後の分類精度において CSVAE が CondVAE および CondVAE-info を上回ることを示す。
MSE 分析は、基準法と比較して、実画像品質を維持しつつ ground truth に近い属性変化を CSVAE が生み出すことを示す。
定性的結果は、より多様な属性（眼鏡のスタイル、顔毛、表情など）と属性スタイルのアイデンティティ間の保持を示す。
スイス・ロールの toy 例は、CSVAE がクラス情報を W に分離し Z は識別性が低いままであることを示し、意図したサブスペース構造を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。