Skip to main content
QUICK REVIEW

[论文解读] Multi-modal Cycle-consistent Generalized Zero-Shot Learning

Rafael Felix, B. G. Vijay Kumar|arXiv (Cornell University)|Aug 1, 2018
Domain Adaptation and Few-Shot Learning参考文献 18被引用 28
一句话总结

本文提出了一种用于广义零样本学习(GZSL)的多模态循环一致性生成对抗网络正则化方法,通过强制合成视觉特征重建其原始语义特征,提升对未见类别的泛化能力。通过引入循环一致性损失,该方法生成更具语义保真度的视觉表征,在CUB、FLO、SUN、AWA和ImageNet数据集上实现了最先进性能。

ABSTRACT

In generalized zero shot learning (GZSL), the set of classes are split into seen and unseen classes, where training relies on the semantic features of the seen and unseen classes and the visual representations of only the seen classes, while testing uses the visual representations of the seen and unseen classes. Current methods address GZSL by learning a transformation from the visual to the semantic space, exploring the assumption that the distribution of classes in the semantic and visual spaces is relatively similar. Such methods tend to transform unseen testing visual representations into one of the seen classes' semantic features instead of the semantic features of the correct unseen class, resulting in low accuracy GZSL classification. Recently, generative adversarial networks (GAN) have been explored to synthesize visual representations of the unseen classes from their semantic features - the synthesized representations of the seen and unseen classes are then used to train the GZSL classifier. This approach has been shown to boost GZSL classification accuracy, however, there is no guarantee that synthetic visual representations can generate back their semantic feature in a multi-modal cycle-consistent manner. This constraint can result in synthetic visual representations that do not represent well their semantic features. In this paper, we propose the use of such constraint based on a new regularization for the GAN training that forces the generated visual features to reconstruct their original semantic features. Once our model is trained with this multi-modal cycle-consistent semantic compatibility, we can then synthesize more representative visual representations for the seen and, more importantly, for the unseen classes. Our proposed approach shows the best GZSL classification results in the field in several publicly available datasets.

研究动机与目标

  • 解决由于GAN生成的视觉特征无约束,导致GZSL模型在未见类别上泛化能力差的问题。
  • 提升GZSL中已见类别和未见类别合成视觉表征的语义保真度。
  • 通过在语义特征与视觉特征之间强制实现循环一致映射,减少模型对已见类别的偏差。
  • 通过一种新颖的多模态循环一致性正则化方法,提升基于GAN的GZSL性能。
  • 在包括CUB、FLO、SUN、AWA和ImageNet在内的多样化基准上实现最先进结果。

提出的方法

  • 提出一种多模态循环一致性损失,强制从生成的视觉特征中重建原始语义特征。
  • 将循环一致性损失作为正则化项集成到GAN训练目标中,以约束生成器的输出。
  • 使用生成器网络从已见和未见类别的语义嵌入中合成视觉特征。
  • 使用判别器区分真实与生成的视觉特征,确保分布对齐。
  • 通过结合对抗损失、分类损失和循环一致性损失的联合损失函数,端到端训练模型。
  • 将训练好的生成器用于为未见类别合成视觉特征,随后用于训练多分类分类器。

实验结果

研究问题

  • RQ1在生成的视觉特征与其源语义特征之间强制实现循环一致性,是否能提升GZSL分类准确率?
  • RQ2所提出的正则化方法是否能降低GZSL模型对已见类别的偏差?
  • RQ3与f-CLSWGAN等最先进方法相比,该循环一致性GAN方法在零样本和广义零样本准确率上的表现如何?
  • RQ4循环一致性损失是否能加快训练过程的收敛?
  • RQ5该方法在具有高类别不平衡和大量类别的大规模数据集上的有效性如何?

主要发现

  • 所提出的循环一致性GAN方法在CUB、FLO、SUN、AWA和ImageNet数据集的ZSL与GZSL设置下均实现了最先进性能。
  • 在CUB、FLO和AWA数据集上,该方法显著优于f-CLSWGAN基线,性能提升可归因于合成特征中更高的语义保真度。
  • 重建损失ℓREG在训练过程中持续下降,证实模型成功地将生成的视觉特征映射回其原始语义特征。
  • 在四分之三的数据集中,cycle-WGAN变体的收敛速度优于基线,表明训练动态得到改善。
  • 当引入分类损失时,cycle-CLSWGAN变体的收敛速度与基线相当,表明优化过程稳定。
  • 尽管SUN数据集类别数量庞大且已见/未见类别存在严重不平衡,cycle-WGAN模型仍表现出色,但cycle-CLSWGAN在该数据集上表现最佳。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。