[论文解读] Zero-Shot Learning via Class-Conditioned Deep Generative Models
引入一个用于零样本学习的深度生成模型,其中每个类别由一个受类别条件约束的潜在高斯先验来表示,用于有监督的 VAE,从而通过将测试潜在后验与未见类别先验对齐,实现归纳、跨辨、以及少样本 ZSL。
We present a deep generative model for learning to predict classes not seen at training time. Unlike most existing methods for this problem, that represent each class as a point (via a semantic embedding), we represent each seen/unseen class using a class-specific latent-space distribution, conditioned on class attributes. We use these latent-space distributions as a prior for a supervised variational autoencoder (VAE), which also facilitates learning highly discriminative feature representations for the inputs. The entire framework is learned end-to-end using only the seen-class training data. The model infers corresponding attributes of a test image by maximizing the VAE lower bound; the inferred attributes may be linked to labels not seen when training. We further extend our model to a (1) semi-supervised/transductive setting by leveraging unlabeled unseen-class data via an unsupervised learning module, and (2) few-shot learning where we also have a small number of labeled inputs from the unseen classes. We compare our model with several state-of-the-art methods through a comprehensive set of experiments on a variety of benchmark data sets.
研究动机与目标
- 在未见类别的带标签数据不可用或稀缺时,激发零样本学习的研究动机。
- 将每个类别表示为在类别属性条件下的潜在空间分布,以捕捉类内变异性。
- 开发一个使用类别条件先验的有监督 VAE 框架,以实现对未见类别的识别。
- 通过利用未标注数据和少量已标注的未见类别样本,将模型扩展到半监督/跨辨和少样本设置。
- 仅使用已见类别数据(以及可选的未标注数据)端到端训练,以学习判别性潜在表示。
提出的方法
- 定义一个类别条件潜在高斯先验 p_ψ(z|a),其中 μ(a)=W_μ a 且 Σ(a)=diag(exp(W_σ a))。
- 使用带有 q_φ(z|x) 的变分下界来最大化 E_{q}[log p_θ(x|z)] - KL(q_φ(z|x)||p_ψ(z|a))。
- 加入一个边际正则化项,促使 q_φ(z|x) 接近真实类别先验 p_ψ(z|a),但与其他类别先验尽可能远,近似为基于 softmax 的替代项。
- 通过添加未标注数据正则化项,将模型扩展到跨辨 ZSL,使未见类别的预测通过 q 与强化后的类别分布期望之间的 KL 离散化来变得更尖锐。
- 通过将未见类别的带标签样本纳入并在这些额外样本上优化相同目标,实现少样本学习。
- 在 AwA、CUB-200、SUN 和 ImageNet 上进行实验评估,使用 VGG-19 fc7 特征,在适用时结合 ImageNet 的 word2vec 嵌入。
实验结果
研究问题
- RQ1类别条件潜在分布是否能够捕捉类内变异性并实现对未见类别的准确 ZSL?
- RQ2引入未标注数据(跨辨设置)是否相对于纯归纳方法提高零样本和少样本性能?
- RQ3边距正则化对潜在空间的类别判别和最终预测有何影响?
- RQ4VAE 目标中的重构项对跨数据集的 ZSL 性能有何影响?
- RQ5方法是否能够扩展到大数据集(如 ImageNet)并利用不同的语义表示(属性与词向量)?
主要发现
- 所提出的 VZSL 方法在小规模数据集(AwA、CUB-200、SUN)以及在大规模 ImageNet 的归纳 ZSL 中均优于现有基线。
- 在跨辨设置中,VZSL 相较于归纳结果带来显著提升,平均在各数据集上约提升 8%。
- 带有 VAE 重构项的模型变体通常表现更好,表明生成组件的好处;当使用未标注数据时,边距正则化进一步提升判别能力。
- 少样本扩展显示,加入少量带标签的未见类别样本显著提升相对于标准 ZSL 的性能,在迁移学习场景中甚至可超越多类别 SVM 基线。
- t-SNE 可视化表明,VZSL 学得的潜在空间比原始 CNN 特征和重构特征更易分离的类别表示。
- 在各项评估中,VZSL 展示出对领域移位的鲁棒性,能够利用未见类别的未标注数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。