[論文レビュー] Zero-Shot Learning via Class-Conditioned Deep Generative Models
未見クラスのラベル付きデータが入手困難な場合でも、各クラスをクラス条件付き潜在ガウス事前分布で表現する supervise d VAE の深層生成モデルを導入し、 test latent posteriors を unseen class priors に一致させることで、 inductive、transductive、および few-shot ZSL を可能にする。
We present a deep generative model for learning to predict classes not seen at training time. Unlike most existing methods for this problem, that represent each class as a point (via a semantic embedding), we represent each seen/unseen class using a class-specific latent-space distribution, conditioned on class attributes. We use these latent-space distributions as a prior for a supervised variational autoencoder (VAE), which also facilitates learning highly discriminative feature representations for the inputs. The entire framework is learned end-to-end using only the seen-class training data. The model infers corresponding attributes of a test image by maximizing the VAE lower bound; the inferred attributes may be linked to labels not seen when training. We further extend our model to a (1) semi-supervised/transductive setting by leveraging unlabeled unseen-class data via an unsupervised learning module, and (2) few-shot learning where we also have a small number of labeled inputs from the unseen classes. We compare our model with several state-of-the-art methods through a comprehensive set of experiments on a variety of benchmark data sets.
研究の動機と目的
- 見られるクラスのデータが利用できない、または不足している場合のゼロショット学習を動機づける。
- 各クラスをクラス属性に条件付けられた潜在空間分布として表現し、クラス内変動を捉える。
- クラス条件付き priors を用いて未見クラスの認識を可能にする、監督付き VAE フレームワークを開発する。
- 未ラベルデータと少数の未見クラスのラベル付きサンプルを活用して、半教師付き/転導的および少数ショット設定へ拡張する。
- seen-class データのみを用いてエンドツーエンドで訓練し、識別的な潜在表現を学ぶ。
提案手法
- μ(a)=W_μ a および Σ(a)=diag(exp(W_σ a)) を持つ、クラス条件付き潜在ガウス事前分布 p_ψ(z|a) を定義する。
- q_φ(z|x) を用いた変分下界を用いて、E_{q}[log p_θ(x|z)] - KL(q_φ(z|x)||p_ψ(z|a)) を最大化する。
- 真のクラス事前分布 p_ψ(z|a) に近づくよう q_φ(z|x) を促しつつ、他のクラス priors からは遠ざけるマージン正則化項を組み込む。softmax ベースの代理関数で近似。
- 未ラベルデータ正則化項を追加して、q と鋭化されたクラス分布期待値との間の KL 発散を用いて unseen-class の予測を鋭くすることで、転導的ZSLへ拡張する。
- 未見クラスのラベル付きサンプルを取り入れ、これら追加サンプル上で同じ目的関数を最適化して少数ショット学習を可能にする。
- AwA, CUB-200, SUN, ImageNet を対象に、VGG-19 fc7 特徴を用い、適用可能な場合は ImageNet の word2vec 埋め込みを用いて実験評価を行う。
実験結果
リサーチクエスチョン
- RQ1VAE におけるクラス条件付き潜在分布はクラス内変動を捉え、未見クラスの正確な ZSL を可能とするか?
- RQ2未ラベルデータを取り込む(転導的設定)は、純粋な帰納的手法と比べてゼロショットおよび少数ショットの性能を向上させるか?
- RQ3マージンベースの正則化項は潜在空間のクラス判別と最終予測にどのように影響するか?
- RQ4VAE 目的関数の再構成項がデータセット間での ZSL の性能に与える影響はどれほどか?
- RQ5本手法は大規模データセット(例:ImageNet)にもスケールし、異なる意味表現(属性 vs. word vectors)を活用できるか?
主な発見
- 提案手法 VZSL は小規模データセット(AwA, CUB-200, SUN)および大規模 ImageNet における inductive ZSL で最先端のベースラインを上回る。
- 転導的設定では、VZSL は帰納的結果を大きく上回し、データセット全体で平均約8%の改善を達成。
- VAE の再構成項を含むモデル変種は概して良好な性能を示し、生成成分の利点を示す;未ラベルデータが使用される場合、マージン正則化は識別性をさらに高める。
- 少数ショット拡張では、未見クラスのラベル付き例を少数追加するだけで、標準的な ZSL を大きく改善し、転移学習シナリオで multiclass SVM のベースラインを上回ることが示される。
- t-SNE 可視化は、VZSL が学習する潜在空間が、生の CNN 特徴や再構成特徴と比べてより分離可能なクラス表現を生み出すことを示している。
- 評価全体を通じて、VZSL は unseen クラスの未ラベルデータを活用することによりドメインシフトに対する頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。