[论文解读] Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks
本文提出语义保留对抗嵌入网络(SP-AEN),一种新颖的零样本视觉识别框架,通过将视觉到语义的嵌入解耦为判别子空间与重建子空间,缓解了语义损失问题。通过在独立嵌入之间进行对抗性训练,SP-AEN 保留了未见类别的重要语义,在 CUB、AWA、SUN 和 aPY 上的调和平均准确率分别实现了 12.2%、9.3%、4.0% 和 3.6% 的绝对提升,达到当前最优性能。
We propose a novel framework called Semantics-Preserving Adversarial Embedding Network (SP-AEN) for zero-shot visual recognition (ZSL), where test images and their classes are both unseen during training. SP-AEN aims to tackle the inherent problem --- semantic loss --- in the prevailing family of embedding-based ZSL, where some semantics would be discarded during training if they are non-discriminative for training classes, but could become critical for recognizing test classes. Specifically, SP-AEN prevents the semantic loss by introducing an independent visual-to-semantic space embedder which disentangles the semantic space into two subspaces for the two arguably conflicting objectives: classification and reconstruction. Through adversarial learning of the two subspaces, SP-AEN can transfer the semantics from the reconstructive subspace to the discriminative one, accomplishing the improved zero-shot recognition of unseen classes. Comparing with prior works, SP-AEN can not only improve classification but also generate photo-realistic images, demonstrating the effectiveness of semantic preservation. On four popular benchmarks: CUB, AWA, SUN and aPY, SP-AEN considerably outperforms other state-of-the-art methods by an absolute performance difference of 12.2\%, 9.3\%, 4.0\%, and 3.6\% in terms of harmonic mean values
研究动机与目标
- 为解决基于嵌入的零样本学习中因属性方差抑制而导致未见类别非判别性但语义相关属性在训练过程中被丢弃所引发的语义损失问题。
- 解耦视觉-语义嵌入网络中分类与图像重建之间的冲突目标。
- 实现在不降低分类性能的前提下,从重建子空间到判别子空间的有效语义迁移。
- 在保持高零样本识别准确率的同时,为未见类别生成照片级真实感图像。
- 通过平衡已见类与未见类的识别性能,在广义零样本学习中实现更优的泛化能力。
提出的方法
- 引入一个独立的视觉到语义映射 F: V → S,其在与判别编码器 E: V → S 分离的子空间中运行。
- 训练生成器 G: S → V,从重建子空间重建图像,以保留细粒度语义,实现照片级真实感生成。
- 使用对抗性判别器 D 对齐 F(x) 与 E(x) 的分布,实现从重建子空间到判别子空间的语义迁移。
- 通过联合损失函数(结合分类损失、重建损失与对抗损失)优化完整模型,以平衡各项目标。
- 采用经过校准的堆叠规则并引入偏差校正,以平衡已见类与未见类的识别性能,以 AUSUC 为主要评估指标。
- 通过 t-SNE 可视化与属性方差分析表明,低方差属性(在训练中被丢弃)在未见类别识别中依然具有关键作用。
实验结果
研究问题
- RQ1解耦嵌入架构是否能够保留传统 ZSL 方法因属性方差抑制而丢失的语义?
- RQ2在独立的判别性与重建性嵌入之间进行对抗性对齐,是否能在不损害分类准确率的前提下实现有效的语义迁移?
- RQ3所提出的框架是否能够在提升零样本识别性能的同时,为未见类别生成照片级真实感图像?
- RQ4在多种基准测试中,SP-AEN 在调和平均准确率与 AUSUC 表现上与当前最优方法相比如何?
- RQ5当已见类与未见类之间发生语义损失时,重建质量会下降到何种程度?
主要发现
- 在 CUB 基准上,SP-AEN 相较于先前方法在调和平均准确率上实现了 12.2% 的绝对提升。
- 在 AWA 数据集上,SP-AEN 相较于当前最优基线模型,将调和平均准确率提升了 9.3%。
- 在 SUN 数据集上,SP-AEN 实现了 4.0% 的调和平均性能绝对增益;在 aPY 数据集上实现了 3.6% 的增益。
- 消融研究证实,对抗性训练在所有数据集上均使调和平均准确率提升超过 10%,证明了有效语义迁移。
- AUSUC 曲线显示,采用完整目标函数的 SP-AEN 持续优于仅使用分类损失训练的模型,表明在已见类与未见类识别之间实现了更优平衡。
- 即使在属性方差较高的数据集(如 AWA、aPY)上,重建质量依然保持较高水平,而 SAE 与 DirectMap 在此类条件下性能显著下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。