[论文解读] Zero-Shot Learning Through Cross-Modal Transfer
本文提出了一种零样本学习模型,该模型利用无监督词向量和视觉特征嵌入,无需为未见类别提供任何训练数据,即可对已见和未见物体类别进行分类。通过将图像映射到从文本学习得到的语义空间,并使用异常检测来区分已知类别与未见类别,该模型在已见类别上实现了最先进性能(准确率最高达80%),在未见类别上也取得了合理性能(准确率在30%至15%之间),即使未使用人工定义的属性。
This work introduces a model that can recognize objects in images even if no training data is available for the objects. The only necessary knowledge about the unseen categories comes from unsupervised large text corpora. In our zero-shot framework distributional information in language can be seen as spanning a semantic basis for understanding what objects look like. Most previous zero-shot learning models can only differentiate between unseen classes. In contrast, our model can both obtain state of the art performance on classes that have thousands of training images and obtain reasonable performance on unseen classes. This is achieved by first using outlier detection in the semantic space and then two separate recognition models. Furthermore, our model does not require any manually defined semantic features for either words or images.
研究动机与目标
- 在无需为未见类别提供任何训练图像的情况下,实现视觉物体的零样本识别。
- 利用大规模文本语料库中无监督学习的词向量,弥合视觉与语义模态之间的鸿沟。
- 在单一概率框架内统一处理已见与未见类别分类。
- 在零样本学习中消除对手动定义的视觉或语义属性的依赖。
提出的方法
- 使用在图像特征上训练的深度神经网络,将图像嵌入到低维语义空间中。
- 从大规模无监督文本语料库中学习词向量,以表示语义相似性。
- 使用各向同性高斯混合模型对语义空间中已见类别特征的分布进行建模。
- 通过边缘概率阈值化进行异常检测,以判断测试图像属于已见类别还是未见类别。
- 对于已见类别,在原始图像特征上应用Softmax分类器。
- 对于未见类别,使用以语义词向量为中心的高斯似然进行分类。
实验结果
研究问题
- RQ1模型是否能在无需任何训练数据的情况下,对已见类别实现高准确率,同时对未见类别也保持合理性能?
- RQ2无监督词向量表示在实现零样本视觉识别的跨模态迁移方面有多有效?
- RQ3在语义空间中进行异常检测是否能可靠地区分已知与未知视觉类别?
- RQ4在零样本学习中,完全省去人工属性工程对性能的影响有多大?
- RQ5异常检测的阈值变化如何影响模型性能?
主要发现
- 当使用最优异常检测阈值时,该模型在已见类别上的准确率最高可达80%。
- 在未见类别上,该模型的分类准确率在30%至15%之间,显著高于随机猜测水平(10%)。
- 当未见类别在语义和视觉上与已见类别相似时(例如猫与卡车),性能最高,表明迁移效果良好。
- 当未见类别在语义和视觉上与已见类别差异较大时(例如猫与狗),性能下降至接近随机水平。
- 该模型在仅区分未见类别时,准确率最高可达90%,表明其具备强大的零样本判别能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。