QUICK REVIEW

[论文解读] Zero-Shot Learning via Semantic Similarity Embedding

Ziming Zhang, Venkatesh Saligrama|arXiv (Cornell University)|Sep 15, 2015

Domain Adaptation and Few-Shot Learning参考文献 32被引用 117

一句话总结

本文提出了一种用于零样本学习的语义相似度嵌入（SSE）方法，通过将源域和目标域数据建模为已知类别比例的混合，学习与类别相关的特征变换，将两者映射到共享语义空间中，从而在该空间中利用相似度度量实现对未见类别的准确分类。该方法在多个基准数据集上取得了最先进性能，包括SUN Attributes数据集，相较于先前方法显著提升了准确率。

ABSTRACT

In this paper we consider a version of the zero-shot learning problem where seen class source and target domain data are provided. The goal during test-time is to accurately predict the class label of an unseen target domain instance based on revealed source domain side information (\eg attributes) for unseen classes. Our method is based on viewing each source or target data as a mixture of seen class proportions and we postulate that the mixture patterns have to be similar if the two instances belong to the same unseen class. This perspective leads us to learning source/target embedding functions that map an arbitrary source/target domain data into a same semantic space where similarity can be readily measured. We develop a max-margin framework to learn these similarity functions and jointly optimize parameters by means of cross validation. Our test results are compelling, leading to significant improvement in terms of accuracy on most benchmark datasets for zero-shot recognition.

研究动机与目标

为解决在测试时仅能获取源域属性（如属性、词语）而无法获取目标域标签时，对未见类别进行分类的挑战。
通过将源域和目标域数据均建模为已知类别比例的概率混合，提升零样本识别性能。
学习源域和目标域的共享语义嵌入，使得相似的混合模式对应相同的未见类别。
通过在保留的已知类别上进行交叉验证，联合优化嵌入参数，以提升对未见类别的泛化能力。
通过引入类别相关的特征变换，克服现有方法依赖噪声附加信息或线性映射的局限性。

提出的方法

将每个源域类别表示为已知类别比例的直方图，在单纯形上形成概率混合。
使用类别相关的特征变换将目标域样本投影到同一语义空间，以估计其已知类别混合比例。
通过最大间隔框架学习源域和目标域的嵌入函数，对齐跨域的已知类别数据分布。
采用两种变体：一种基于交集函数，另一种基于修正线性单元（ReLU）进行相似度评分。
通过保留部分已知类别进行交叉验证，联合优化嵌入参数，以提升对未见类别的泛化能力。
将深度特征（如VGG-verydeep-19）作为嵌入网络的输入，实现鲁棒的特征表示。

实验结果

研究问题

RQ1将源域和目标域数据建模为已知类别比例的混合，是否能提升零样本识别的准确率？
RQ2学习类别相关的特征变换是否能实现源域与目标域之间语义亲和力的更好对齐？
RQ3在保留的已知类别上使用交叉验证的最大间隔框架，是否能有效泛化到未见类别？
RQ4该方法在大规模零样本识别基准数据集上与最先进方法相比表现如何？
RQ5当已知类别数量较少而未见类别数量较多时，该方法的鲁棒性如何？

主要发现

在SUN Attributes数据集上，该方法在317个已知类别和10个未见类别下达到87.17%的准确率，显著高于随机基线（0.14%）。
当未见类别增加至700个时，准确率下降至2.85%，但保持稳定且显著高于随机基线，表明方法具备良好的可扩展性。
在CIFAR-10数据集上，使用多线程CPU的推理时间不足5分钟，展示了计算效率。
该方法在五个基准数据集上均优于现有最先进方法，包括大规模零样本识别任务。
使用类别相关的特征变换与语义相似度嵌入，能更好地将目标域数据与源域属性对齐，尤其在使用VGG-verydeep-19特征时效果更佳。
即使在已知类别较少的情况下，该方法也表现出良好的泛化能力：17个已知类别和10个未见类别下准确率达到61.00%，在317个已知类别下进一步提升至87.17%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。