[论文解读] Preserving Semantic Relations for Zero-Shot Learning
本文提出通过将同一、相似和不相似关系建模为关系感知的编解码框架,在嵌入空间中保持类别之间的语义关系,在若干零-shot和广义零样本基准测试中达到最先进的结果,并在某些类别嵌入不可用时实现近似语义推断。
Zero-shot learning has gained popularity due to its potential to scale recognition models without requiring additional training data. This is usually achieved by associating categories with their semantic information like attributes. However, we believe that the potential offered by this paradigm is not yet fully exploited. In this work, we propose to utilize the structure of the space spanned by the attributes using a set of relations. We devise objective functions to preserve these relations in the embedding space, thereby inducing semanticity to the embedding space. Through extensive experimental evaluation on five benchmark datasets, we demonstrate that inducing semanticity to the embedding space is beneficial for zero-shot learning. The proposed approach outperforms the state-of-the-art on the standard zero-shot setting as well as the more realistic generalized zero-shot setting. We also demonstrate how the proposed approach can be useful for making approximate semantic inferences about an image belonging to a category for which attribute information is not available.
研究动机与目标
- 通过利用语义描述(属性/词嵌入)在没有新标注数据的情况下识别新类别,从而激励零样本学习。
- 通过将语义空间分解为同一、语义相似和语义不相似的类关系,将其结构保留在图像嵌入空间中。
- 开发一个可训练的编码器–解码器模型,强制执行关系感知目标和重构,以提升 ZSL 和广义 ZSL 的性能。
- 表明保持语义关系可以提高对已见类别的判别能力,同时对未见类别具备泛化能力;并在某些嵌入缺失时实现近似语义推断。
提出的方法
- 使用编码器 f(y; theta_f) 将类别嵌入映射到视觉(嵌入)空间(visual space),以及解码器 g(x; theta_g) 重构输入。
- 基于类别嵌入之间的余弦相似度 delta,将语义空间分解为关系:identical(delta=1)、语义相似(tau <= delta < 1)、语义不相似(delta < tau)。
- 引入三项目标:O1 通过自适应铰链式损失对齐 identical 与 dissimilar 对;O2 对语义相似的类强制相似性,同时在与不相似类的约束下保持限制;O3 重构损失 ||y_r - hat{y}_r||^2 来正则化编码器。
- 使用四元组样本(y_r, x_i, x_j, x_k)来编码 identical、similar 和 dissimilar 关系;在线难负样本挖掘选择信息量大的元组用于更新。
- 用组合目标 O = (1/|B|) sum_B (O1 + lambda1 * O2 + lambda2 * O3) 进行训练,并在视觉空间对 class c_r 进行最近邻推断,使用 s(f(y^c_r), x^u)。
- 通过为 x_j(相似)和 x_k(不相似)采样 p 个候选并用最高损失项进行更新来高效挖掘元组,以在不对所有候选进行硬挖掘的情况下改善收敛。
实验结果
研究问题
- RQ1保持嵌入空间中类别嵌入的语义结构是否能提升零样本识别性能?
- RQ2一个关系感知的编码器–解码器框架是否能在标准和广义 ZSL 基准上超越现有最先进方法?
- RQ3在大规模数据集(如 ImageNet)上的表现如何,并在某些类别嵌入不可用时是否支持近似语义推断?
- RQ4每个组成部分(关系保持、重构损失)对整体性能的贡献是什么?
主要发现
- 在常规 ZSL 设置下于 SUN、AWA2 和 CUB 达到最先进的结果。
- 在广义 ZSL 性能方面表现突出,在 SUN、AWA2、CUB、和 aPY 数据集上综合 Harmonic Mean 具有竞争力。
- 在大规模 ImageNet 的常规和广义 ZSL 设置中优于对手的方法。
- 即使某一类别的嵌入不可用,模型仍可基于余弦相似性对已知类别进行语义相关提示的近似推断。
- 使用所提出的 O1–O3 框架进行元组挖掘可提供更快的收敛和鲁棒的更新(约 5 个 epoch 内的早期收益)。
- 在基线中,保持语义关系(O2)带来明显收益,特别是在类间语义更宽泛的粗粒度数据集上。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。