[论文解读] Semantic Autoencoder for Zero-Shot Learning
引入语义自编码器(SAE),共同学习一个将视觉特征映射到语义空间的编码器和一个重构原始特征的解码器,从而提升零样本学习的泛化能力,并实现大规模高效训练。
Existing zero-shot learning (ZSL) models typically learn a projection function from a feature space to a semantic embedding space (e.g.~attribute space). However, such a projection function is only concerned with predicting the training seen class semantic representation (e.g.~attribute prediction) or classification. When applied to test data, which in the context of ZSL contains different (unseen) classes without training data, a ZSL model typically suffers from the project domain shift problem. In this work, we present a novel solution to ZSL based on learning a Semantic AutoEncoder (SAE). Taking the encoder-decoder paradigm, an encoder aims to project a visual feature vector into the semantic space as in the existing ZSL models. However, the decoder exerts an additional constraint, that is, the projection/code must be able to reconstruct the original visual feature. We show that with this additional reconstruction constraint, the learned projection function from the seen classes is able to generalise better to the new unseen classes. Importantly, the encoder and decoder are linear and symmetric which enable us to develop an extremely efficient learning algorithm. Extensive experiments on six benchmark datasets demonstrate that the proposed SAE outperforms significantly the existing ZSL models with the additional benefit of lower computational cost. Furthermore, when the SAE is applied to supervised clustering problem, it also beats the state-of-the-art.
研究动机与目标
- 激励并解决零样本学习(ZSL)中的投影域偏移。
- 提出一个语义引导的自编码器,强制编码与重构约束。
- 开发一个与训练数据大小无关的高效解Sylvester方程的求解器。
- 在六个基准数据集上展示最先进的ZSL性能,并展示对监督聚类的适用性。
提出的方法
- 将编码器W和解码器W^T建模为对称的线性投影,具有共享的潜在语义空间。
- 将WX = S作为硬约束并放宽为软约束,对目标函数最小化 min_W ||X - W^T S||_F^2 + λ||WX - S||_F^2。
- 推导出一个Sylvester方程 AW + WB = C,其中 A = SS^T, B = λXX^T, C = (1+λ) SX^T,用以求解W(复杂度与N无关)。
- 提供一个6行的MATLAB实现,用于通过求解Sylvester方程来得到SAE。
- 将SAE应用于零样本学习:将测试视觉数据投影到语义空间并对未见类别原型执行最近邻分类,或将原型投影到视觉空间并在该空间中进行分类。
- 通过从带标签数据学习一个语义投影并对投影后的测试数据进行聚类,展示对监督聚类的适用性。
实验结果
研究问题
- RQ1重构约束在零样本学习编码器中是否能提升对未见类别的泛化?
- RQ2对称线性SAE是否在计算成本降低的情况下提供有竞争力的性能,与现有ZSL模型相比?
- RQ3SAE在小规模(属性)和大规模(词向量)语义空间上的表现如何?
- RQ4SAE框架是否能有效扩展到超越ZSL的监督聚类?
主要发现
| 方法 | AwA | CUB | aP&Y | SUN |
|---|---|---|---|---|
| SAE (W) | 84.7 | 61.4 | 55.4 | 91.0 |
| SAE (W^T) | 84.0 | 60.9 | 54.8 | 91.5 |
- SAE在六个ZSL基准数据集上达到最先进或具有竞争力的结果,超过了许多现有模型。
- 在编码器和解码器设置中,使用重构约束显著提升相较简单投影基线(岭回归)的性能。
- 在大规模ImNet-2上,SAE(W)较最先进的SS-Voc提升8.8%。
- 两种SAE变体(编码器W和解码器W^T)对ZSL均有效,编码器通常整体表现略好。
- SAE降低计算成本:训练至少比对比方法快10倍(例如在AwA数据集上)。
- SAE也有利于监督聚类,在合成数据和真实数据上通常优于专门的度量学习方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。