[论文解读] Zero-Shot Learning by Convex Combination of Semantic Embeddings
本文提出了一种名为语义嵌入凸组合(ConSE)的简单而有效的方法,通过使用任意现有 n 类图像分类器的 softmax 概率,对预训练的词嵌入进行凸组合,将图像映射到语义嵌入空间。该方法在 ImageNet 上实现了最先进的零样本学习性能,在 1,600 个未见物体类别上达到了 9.4% 的 hit@1 和 24.7% 的 hit@5,且无需额外训练。
Several recent publications have proposed methods for mapping images into continuous semantic embedding spaces. In some cases the embedding space is trained jointly with the image transformation. In other cases the semantic embedding space is established by an independent natural language processing task, and then the image transformation into that space is learned in a second stage. Proponents of these image embedding systems have stressed their advantages over the traditional way{} classification framing of image understanding, particularly in terms of the promise for zero-shot learning -- the ability to correctly annotate images of previously unseen object categories. In this paper, we propose a simple method for constructing an image embedding system from any existing way{} image classifier and a semantic word embedding model, which contains the $ $ class labels in its vocabulary. Our method maps images into the semantic embedding space via convex combination of the class label embedding vectors, and requires no additional training. We show that this simple and direct method confers many of the advantages associated with more complex image embedding schemes, and indeed outperforms state of the art methods on the ImageNet zero-shot learning task.
研究动机与目标
- 通过将任意预训练的 n 类图像分类器转换为语义嵌入模型,而无需微调,实现零样本学习。
- 利用现有的词嵌入和图像分类器输出,构建语义空间中连续的图像表示。
- 评估一种简单直接的方法是否能在零样本图像识别中超越更复杂的联合训练方法。
- 探索置信度和语义接近度在嵌入幅度和泛化能力中的作用。
提出的方法
- 该方法使用预训练图像分类器的 softmax 概率输出作为对应类别标签词嵌入的权重,进行凸组合。
- 每张图像被嵌入为 n 个类别标签语义向量的加权和,其中权重为预测的类别概率。
- 对于多同义词标签(如 ImageNet 的同义词集),在与分类器得分组合前,先对所有同义词的词向量取平均。
- 在推理阶段,通过基于图像嵌入与各个独立词向量之间的余弦相似度对所有词向量进行排序,获取 top-k 预测标签。
- 该方法兼容任何输出相对类别分数的图像分类器,以及任何语义相似概念在向量空间中彼此接近的语义词嵌入模型。
- 该方法自然地通过最终嵌入的 L2 范数编码模型置信度,对于模糊或语义多样的预测,其嵌入的 L2 范数更低。
实验结果
研究问题
- RQ1是否可以通过使用分类器得分对词嵌入进行简单凸组合,实现有效的零样本学习?
- RQ2该方法是否在零样本图像识别中优于更复杂的联合训练方法?
- RQ3模型的置信度(通过嵌入幅度编码)与预测模糊性或语义多样性之间的相关性如何?
- RQ4词嵌入语料库的选择在多大程度上影响零样本泛化性能?
主要发现
- ConSE 在 1,600 个未见 ImageNet 类别上实现了 9.4% 的 hit@1 和 24.7% 的 hit@5,优于近期的最先进方法(DeViSE)在相同零样本基准上的表现。
- 该方法在原始 1,000 类 ImageNet 任务上也表现出色,ConSE(1) 的 hit@1 达到 55.6%,与 Softmax 基线持平,同时仍支持零样本泛化。
- 模型的嵌入幅度隐式反映了预测置信度:L2 范数较低的嵌入对应于不确定或语义多样的预测。
- 尽管输入分数完全相同,ConSE(1) 模型的 hit@1 分数(55.1%)与 Softmax 基线(55.6%)略有差异,这是由于在排序过程中对同义词词向量的非均匀处理所致。
- 当距离训练类别在 ImageNet 层次结构中的距离增加时,性能会下降,但在这些条件下仍保持稳健且优于先前方法。
- 该方法对视觉模型和文本模型的选择具有鲁棒性,因为它仅需要相对类别分数和一个语义空间,其中相似概念在向量空间中彼此接近。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。