QUICK REVIEW

[论文解读] Learning Deep Representations of Fine-grained Visual Descriptions

Scott Reed, Zeynep Akata|arXiv (Cornell University)|May 17, 2016

Domain Adaptation and Few-Shot Learning参考文献 53被引用 146

一句话总结

本论文从零开始端到端训练深度语言模型，将细粒度文本描述与图像对应起来，在不使用手工属性的情况下，在 CUB 和 Flowers 数据集上实现了零样本识别与检索的最先进水平。

ABSTRACT

State-of-the-art methods for zero-shot visual recognition formulate learning as a joint embedding problem of images and side information. In these formulations the current best complement to visual features are attributes: manually encoded vectors describing shared characteristics among categories. Despite good performance, attributes have limitations: (1) finer-grained recognition requires commensurately more attributes, and (2) attributes do not provide a natural language interface. We propose to overcome these limitations by training neural language models from scratch; i.e. without pre-training and only consuming words and characters. Our proposed models train end-to-end to align with the fine-grained and category-specific content of images. Natural language provides a flexible and compact way of encoding only the salient visual aspects for distinguishing categories. By training on raw text, our model can do inference on raw text as well, providing humans a familiar mode both for annotation and retrieval. Our model achieves strong performance on zero-shot text-based image retrieval and significantly outperforms the attribute-based state-of-the-art for zero-shot classification on the Caltech UCSD Birds 200-2011 dataset.

研究动机与目标

动机：用从零开始训练的高容量文本模型替代基于属性的辅助信息，利用丰富的细粒度视觉描述。
开发一个对称的深结构联合嵌入（DS-SJE），能够联合编码图像和文本以用于零样本识别和检索。
收集鸟类与花卉的细粒度视觉描述数据集，并对多种文本编码器进行端到端评估。
证明基于文本的嵌入在 CUB 的零样本分类上可以超越基于属性的最先进方法，并在检索方面具备竞争力。

提出的方法

提出 DS-SJE，一种对称目标，通过共享评分函数 F(v,t)=θ(v)^Tφ(t) 最大化图像-文本与文本-图像的一致性。
在保持图像编码器固定（GoogLeNet 特征）的前提下，从零开始训练端到端的文本编码器（CNN、CNN-RNN、LSTM）。
提供三种文本模型族：Word-CNN、Char-CNN，以及 CNN-RNN 变体，用于编码细粒度描述。
使用凸代理损失（方程 5–7），在小批量上应用 SGD/RMSprop 来优化 DS-SJE。
为每张图像收集十个单句的细粒度描述，并在 CUB 和 Flowers 上评估零样本分类与检索。

实验结果

研究问题

RQ1高容量、从零开始训练的文本编码器用于细粒度描述，是否能缩小零样本分类与基于属性的方法之间的差距？
RQ2对称的图像-文本嵌入（DS-SJE）是否比非对称变体在零样本识别与检索方面有所提升？
RQ3在训练时使用细粒度描述，哪些文本编码架构最适合支持零样本学习与检索？
RQ4训练文本数据量如何影响不同模型的零样本性能？
RQ5在没有测试标签嵌入的情况下，是否可实现有效的零样本检索？

主要发现

DS-SJE 在零样本检索方面持续优于非对称变体，适用于所有文本模型。
Char-CNN-RNN 与 Word-CNN-RNN 实现了最高性能，DS-SJE 在 CUB 分类任务上超过基于属性的状态-艺术。
Word-CNN-RNN 在更多字幕下，在 CUB 的分类与检索方面提供了最佳的总体零样本性能。
在 Flowers 上，Word-LSTM 与 Word-CNN-RNN 变体达到接近状态的结果，DS-SJE 提供强大的检索性能。
增加每张图像的训练句子数量可以提升神经文本编码器的性能，在零样本任务中常常超过 BoW 与 word2vec 的基线。
收集了鸟类与花卉的细粒度视觉描述数据集，以实现文本编码器的端到端训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。