Skip to main content
QUICK REVIEW

[论文解读] Predicting Deep Zero-Shot Convolutional Neural Networks using Textual Descriptions

Jimmy Ba, Kevin Swersky|arXiv (Cornell University)|Jun 1, 2015
Domain Adaptation and Few-Shot Learning参考文献 40被引用 136
一句话总结

该论文提出了一种新颖的零样本学习框架,直接从文本描述(如维基百科文章)预测深度卷积神经网络中卷积层和全连接层的分类器权重,而无需手工设计的属性。通过利用多层卷积神经网络特征,并在CUB-200-2010和牛津花卉数据集上进行端到端训练,该模型在ROC-AUC和精确率-召回率指标上达到了最先进性能,显著优于先前方法。

ABSTRACT

One of the main challenges in Zero-Shot Learning of visual categories is gathering semantic attributes to accompany images. Recent work has shown that learning from textual descriptions, such as Wikipedia articles, avoids the problem of having to explicitly define these attributes. We present a new model that can classify unseen categories from their textual description. Specifically, we use text features to predict the output weights of both the convolutional and the fully connected layers in a deep convolutional neural network (CNN). We take advantage of the architecture of CNNs and learn features at different layers, rather than just learning an embedding space for both modalities, as is common with existing approaches. The proposed model also allows us to automatically generate a list of pseudo- attributes for each visual category consisting of words from Wikipedia articles. We train our models end-to-end us- ing the Caltech-UCSD bird and flower datasets and evaluate both ROC and Precision-Recall curves. Our empirical results show that the proposed model significantly outperforms previous methods.

研究动机与目标

  • 通过利用在线百科全书(如维基百科)中丰富的文本数据,解决大规模图像数据集中细粒度视觉标注收集的挑战。
  • 通过从文本描述中自动生成伪属性,消除零样本学习中对手动定义属性的依赖。
  • 通过利用文本特征预测卷积层和全连接层的权重,提升零样本分类性能。
  • 评估不同损失函数和特征融合策略在多个卷积神经网络层上的影响。
  • 证明基于文本的模型能够学习与视觉特征对齐的语义上有意义的表示。

提出的方法

  • 该模型使用多层感知机(MLP)处理来自维基百科文章的TF-IDF特征,以预测卷积神经网络最终全连接层和中间卷积层的分类器权重。
  • 引入一种卷积分类器,将从文本预测得到的滤波器应用于中间卷积神经网络特征图,并通过全局平均池化计算得分。
  • 使用联合损失函数进行端到端训练,同时优化零样本泛化能力和在已见类别上的域内性能。
  • 结合多个卷积神经网络层的特征,并通过实证评估其对分类性能的影响。
  • 通过测量文本输入中词语删除对分类性能的影响,发现伪属性,识别出关键的判别性词语。
  • 模型学习一个联合嵌入空间,使文本特征能够预测图像分类器权重,从而在无需训练图像的情况下实现零样本推理。

实验结果

研究问题

  • RQ1深度神经网络能否直接从原始文本描述(如维基百科文章)预测卷积神经网络分类器权重,以实现零样本图像分类?
  • RQ2与仅预测最后一层权重相比,同时预测卷积层和全连接层权重是否能提升零样本泛化性能?
  • RQ3模型能否自动从文本中发现与视觉特征相关的有意义的伪属性?
  • RQ4不同损失函数(如三元组损失、对比损失)对零样本和检索基准性能有何影响?
  • RQ5不同卷积神经网络层的特征在多大程度上促进分类准确率和鲁棒性的提升?

主要发现

  • 在完整数据集上进行训练时,该模型在牛津花卉数据集上的ROC-AUC达到0.77,在CUB-200-2010数据集上达到0.66,显著优于先前最先进方法。
  • 在CUB-200-2010数据集上,联合全连接+卷积模型的平均精确率(mAP)达到0.62,显著优于先前方法。
  • 该模型在已见类别上的性能(top-1准确率约60%)与使用额外标注的最先进细粒度分类器相当。
  • 敏感性分析表明,'tanager'(戴菊鸟)、'purplish'(紫罗兰色的)和'variable'(多变的)等词语在分类未见鸟类物种时具有高度影响力,表明伪属性发现有效。
  • 通过预测权重可视化最相似图像时,模型检索到了视觉上相似的类别,证实文本嵌入捕捉到了有意义的语义和视觉关系。
  • 结合多个卷积神经网络层的特征可提升性能,最佳结果在同时使用中间卷积特征和最终全连接层特征时取得。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。