Skip to main content
QUICK REVIEW

[论文解读] Latent Embeddings for Zero-shot Classification

Yongqin Xian, Zeynep Akata|arXiv (Cornell University)|Mar 29, 2016
Domain Adaptation and Few-Shot Learning参考文献 31被引用 65
一句话总结

本文提出了一种名为潜在嵌入(LatEm)的新方法,这是一种用于零样本图像分类的分段线性兼容性模型,通过潜在变量从多个学习到的双线性映射中进行选择,从而通过建模多样的视觉属性来提升性能。该方法在三个基准数据集上取得了最先进(SOTA)的结果,包括在使用无监督嵌入的情况下在AWA数据集上达到66.2%的准确率,以及在CUB数据集上达到34.9%的准确率,通过学习到的对象属性聚类,实现了更强的泛化能力和可解释性。

ABSTRACT

We present a novel latent embedding model for learning a compatibility function between image and class embeddings, in the context of zero-shot classification. The proposed method augments the state-of-the-art bilinear compatibility model by incorporating latent variables. Instead of learning a single bilinear map, it learns a collection of maps with the selection, of which map to use, being a latent variable for the current image-class pair. We train the model with a ranking based objective function which penalizes incorrect rankings of the true class for a given image. We empirically demonstrate that our model improves the state-of-the-art for various class embeddings consistently on three challenging publicly available datasets for the zero-shot setting. Moreover, our method leads to visually highly interpretable results with clear clusters of different fine-grained object properties that correspond to different latent variable maps.

研究动机与目标

  • 为解决传统线性兼容性函数无法捕捉复杂视觉变化的细粒度零样本分类挑战。
  • 通过引入潜在变量以实现对专用线性映射的动态选择,从而改进图像嵌入与类别嵌入之间的兼容性学习。
  • 实现无监督文本嵌入(如word2vec、GloVe)在零样本学习中的有效使用,而无需依赖人工属性。
  • 开发一种可扩展且高效的训练方法,结合随机梯度下降(SGD)与基于剪枝的模型选择策略,以确定最优的潜在映射数量。
  • 通过展示学习到的潜在映射对应于颜色或喙部形状等明确的对象属性,实现视觉可解释性。

提出的方法

  • 该模型为每个图像-类别对引入一个潜在变量,以在K个学习到的双线性兼容性矩阵中进行选择,从而实现分段线性的决策边界。
  • 每个兼容性映射由矩阵W_i参数化,最终的兼容性得分计算为y = x^T W_i z,其中x为图像嵌入,z为类别嵌入。
  • 模型采用基于排序的损失函数进行训练,通过最小化真实类别与所有错误类别之间的边际,以鼓励正确的相对排序。
  • 使用高效的随机梯度下降(SGD)算法联合优化模型参数与潜在变量分配。
  • 提出一种新颖的基于剪枝的模型选择方法,用于自动确定潜在映射的数量,相比交叉验证可显著减少模型大小与训练时间。
  • 该方法支持监督(如属性)与无监督(如word2vec、GloVe)的类别嵌入,从而实现灵活的零样本学习。

实验结果

研究问题

  • RQ1与单个双线性模型相比,基于潜在变量的兼容性模型是否能在细粒度数据集上提升零样本分类性能?
  • RQ2使用多个动态选择的双线性映射是否能带来对颜色或形状等视觉属性的更好解耦?
  • RQ3潜在映射数量(K)如何影响不同数据集与嵌入方式下的模型性能与泛化能力?
  • RQ4基于剪枝的模型选择方法在效率与性能方面是否优于交叉验证,适用于潜在嵌入模型?
  • RQ5学习到的潜在映射在多大程度上对应于物体的可解释视觉属性?

主要发现

  • 在使用无监督word2vec嵌入的情况下,LatEm在AWA数据集上实现了66.2%的零样本分类准确率,显著优于先前最先进方法的60.1%。
  • 在细粒度的CUB数据集上,LatEm使用word2vec嵌入达到34.9%的准确率,超过先前SOTA的29.9%。
  • 在Dogs数据集上,LatEm使用word2vec嵌入实现36.3%的准确率,优于先前SOTA的35.1%。
  • 在AWA数据集上使用监督属性时,LatEm达到76.1%的准确率,超过先前SOTA的73.9%。
  • 该模型展现出强大的泛化能力,在五折交叉验证的各个划分中均保持稳定性能,且标准误差较低。
  • 定性分析证实,不同的潜在映射对应于可解释的视觉属性,如颜色、喙部形状与翅膀图案,从而增强了模型的可解释性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。