[论文解读] Feature Generating Networks for Zero-Shot Learning
该论文提出 f-CLSWGAN,一种条件生成对抗网络,通过语义类别描述符合成未见类别的深度CNN特征,采用Wasserstein GAN损失和分类损失进行训练,以生成具有判别性的特征。该方法在五组数据集的零样本学习和广义零样本学习设置中均达到最先进性能,通过直接生成高质量特征而非图像实现。
Suffering from the extreme training data imbalance between seen and unseen classes, most of existing state-of-the-art approaches fail to achieve satisfactory results for the challenging generalized zero-shot learning task. To circumvent the need for labeled examples of unseen classes, we propose a novel generative adversarial network (GAN) that synthesizes CNN features conditioned on class-level semantic information, offering a shortcut directly from a semantic descriptor of a class to a class-conditional feature distribution. Our proposed approach, pairing a Wasserstein GAN with a classification loss, is able to generate sufficiently discriminative CNN features to train softmax classifiers or any multimodal embedding method. Our experimental results demonstrate a significant boost in accuracy over the state of the art on five challenging datasets -- CUB, FLO, SUN, AWA and ImageNet -- in both the zero-shot learning and generalized zero-shot learning settings.
研究动机与目标
- 解决零样本学习中未见类别缺乏训练样本所导致的极端数据不平衡问题。
- 克服基于图像的数据生成方法的局限性,后者常生成质量较低或缺乏判别性的图像,不适合用于训练分类器。
- 开发一种特征生成框架,通过生成类别条件CNN特征,实现广义零样本学习中softmax分类器的有效训练。
- 确立广义零样本学习作为评估生成模型质量与泛化能力的稳健代理任务。
提出的方法
- 提出 f-CLSWGAN,一种条件GAN,其生成的CNN特征基于类别级别的语义嵌入(如属性、句子或word2vec向量)进行条件化。
- 采用带梯度惩罚的Wasserstein GAN损失以稳定训练,并在判别器上强制执行1-Lipschitz约束。
- 引入一种新颖的分类损失,通过正则化生成器,使其生成的特征易于被softmax分类器分离。
- 训练生成器将潜在噪声向量与语义描述符映射到类别条件特征分布,绕过图像生成过程。
- 采用深层CNN主干网络(如ResNet或GoogleNet)提取特征,使该框架可泛化至不同网络架构。
- 将生成的特征用于训练标准分类器(如softmax),证明特征级生成优于图像级生成。
实验结果
研究问题
- RQ1在零样本学习任务中,生成CNN特征而非图像是否能带来更好的性能?
- RQ2将Wasserstein GAN与分类损失结合,是否能提升未见类别的特征质量与泛化能力?
- RQ3在特征空间上进行训练的生成模型,是否能在多样化的数据集上实现广义零样本学习的最先进结果?
- RQ4广义零样本学习是否可作为评估生成模型表达能力的可靠代理?
主要发现
- 在广义零样本学习设置下,f-CLSWGAN在CUB数据集上达到54.0%的调和平均准确率,在FLO数据集上达到65.6%,显著优于基线方法和基于图像的生成方法。
- 在CUB数据集上,f-CLSWGAN将调和平均准确率从无生成时的45.1%提升至54.0%(使用生成特征),而通过StackGAN生成图像则使性能下降至31.9%。
- 在FLO数据集上,该方法将调和平均准确率从无生成时的21.9%提升至65.6%(使用特征生成),表明在各数据集上均实现稳定提升。
- 使用StackGAN进行图像生成在CUB数据集上导致性能下降,原因是缺乏判别性细节;而特征生成则保持了高质量、类别一致的表示。
- 所提方法使在广义零样本学习中使用简单softmax分类器成为可能,该设置此前因领域偏移和未见类别样本缺失而难以应用此类模型。
- 结果支持将广义零样本学习作为评估生成模型表达能力的可靠、可量化的基准,补充了人工图像检查。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。