Skip to main content
QUICK REVIEW

[论文解读] DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition

Jeff Donahue, Yangqing Jia|arXiv (Cornell University)|Oct 6, 2013
Domain Adaptation and Few-Shot Learning参考文献 46被引用 3,560
一句话总结

论文显示,来自在 ImageNet 上预训练的 CNN 的深度卷积特征(DeCAF)可以作为强大的通用视觉特征,应用于多样化的视觉任务,在对象识别、领域自适应、细粒度分类和场景识别等方面优于传统表示。它还提供开源代码,并对语义聚类与效率进行了分析。

ABSTRACT

We evaluate whether features extracted from the activation of a deep convolutional network trained in a fully supervised fashion on a large, fixed set of object recognition tasks can be re-purposed to novel generic tasks. Our generic tasks may differ significantly from the originally trained tasks and there may be insufficient labeled or unlabeled data to conventionally train or adapt a deep architecture to the new tasks. We investigate and visualize the semantic clustering of deep convolutional features with respect to a variety of such tasks, including scene recognition, domain adaptation, and fine-grained recognition challenges. We compare the efficacy of relying on various network levels to define a fixed feature, and report novel results that significantly outperform the state-of-the-art on several important vision challenges. We are releasing DeCAF, an open-source implementation of these deep convolutional activation features, along with all associated network parameters to enable vision researchers to be able to conduct experimentation with deep representations across a range of visual concept learning paradigms.

研究动机与目标

  • 证明在大规模物体识别上训练的 CNN 激活特征能够泛化到新的、数据稀缺的任务。
  • 在多样化的视觉基准上评估 DeCAF 特征(对象识别、领域自适应、细粒度识别、场景识别)。
  • 可视化深度特征相对于传统特征的语义聚类特性。
  • 提供一个开源、对 CPU 友好的实现,以便广泛实验深度表示。

提出的方法

  • 在 ImageNet (ILSVRC-2012) 架构上训练一个深度 CNN(5 个卷积层,3 个全连接层)。
  • 从中间层提取激活(DeCAF5、DeCAF6、DeCAF7)作为固定特征,保持权重不变。
  • 在若干数据集上,用有限训练数据评估线性/分类模型(LogReg、SVM)。
  • 使用 t-SNE 可视化和聚类分析,将 DeCAF 特征与 GIST 和 LLC 基线进行比较。
  • 分析运行时特征,并强调一个开源、对 CPU 友好的实现(decaf)。

实验结果

研究问题

  • RQ1在大规模对象识别任务中学习的 CNN 激活特征是否能在带有限标注数据的其他视觉任务中泛化?
  • RQ2不同的 CNN 层(DeCAF5/6/7)作为通用特征在基准测试中有何比较?
  • RQ3相较于传统手工特征,深度特征是否表现出语义聚类和减少域偏差?
  • RQ4在非 GPU 硬件上高效部署 DeCAF 并保持有竞争力的性能是否可行?

主要发现

  • DeCAF 特征,特别是带 dropout 的 DeCAF6,在 Caltech-101、Office 域自适应和 SUN-397 基准测试中实现了最先进或具有竞争力的表现。
  • DeCAF 在多个任务上持续超越传统手工设计的表征(例如基于 SURF 的方法)和先前的深度网络基线,包括在领域自适应中域移位被大幅缓解的任务。
  • 语义视觉聚类对更高层次的 DeCAF 特征更强,表明即使不进行特定任务微调也具备丰富的语义信息。
  • 一个开源、对 CPU 友好的实现(decaf)使广泛实验成为可能,并展示了与现有特征提取器如 HOG 或 KDES 的实际运行时兼容性。
  • 在这些任务中,使用带线性分类器(LogReg/SVM)的 DeCAF 常常达到甚至超过更复杂的多核或非线性方法的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。