Skip to main content
QUICK REVIEW

[论文解读] Recent Advances in Zero-shot Recognition

Yanwei Fu, Tao Xiang|arXiv (Cornell University)|Oct 13, 2017
Domain Adaptation and Few-Shot Learning参考文献 143被引用 41
一句话总结

本文全面综述了零样本识别技术,重点探讨如何利用语义表示(如属性和词向量)来实现对未见物体类别的识别,且无需任何训练样本。文章综述了相关模型、数据集、评估协议以及与之相关的任务(如少样本学习和开集识别),指出了现有方法的局限性,并提出了未来研究方向,包括广义零样本学习、与少样本学习的融合,以及课程学习。

ABSTRACT

With the recent renaissance of deep convolution neural networks, encouraging breakthroughs have been achieved on the supervised recognition tasks, where each class has sufficient training data and fully annotated training data. However, to scale the recognition to a large number of classes with few or now training samples for each class remains an unsolved problem. One approach to scaling up the recognition is to develop models capable of recognizing unseen categories without any training instances, or zero-shot recognition/ learning. This article provides a comprehensive review of existing zero-shot recognition techniques covering various aspects ranging from representations of models, and from datasets and evaluation settings. We also overview related recognition tasks including one-shot and open set recognition which can be used as natural extensions of zero-shot recognition when limited number of class samples become available or when zero-shot recognition is implemented in a real-world setting. Importantly, we highlight the limitations of existing approaches and point out future research directions in this existing new research area.

研究动机与目标

  • 为解决在无任何标注训练数据的情况下识别新型视觉类别这一挑战,这是将监督识别方法扩展至大规模、开放性分类任务的关键限制。
  • 综述并比较能够实现从已见类别到未见类别知识迁移的语义表示(例如属性、词向量)。
  • 分析当前零样本识别方法的局限性,并提出更真实、更通用的评估与学习设置。
  • 探索零样本识别与少样本识别、开集识别的融合,作为实际部署中的自然延伸。
  • 识别并倡导未来研究方向,包括课程学习,以及超越物体类别的基于属性的识别。

提出的方法

  • 利用语义表示(如语义属性和预训练词向量,例如GloVe)将类别级知识编码到共享嵌入空间中。
  • 采用嵌入模型将视觉特征投影到语义空间,实现测试样本与类别原型之间的基于相似度的分类。
  • 应用在已见类别上训练的投影函数,将未见类别的原型映射到相同的语义-视觉嵌入空间。
  • 在共享嵌入空间中使用余弦相似度或其他距离度量,根据测试实例与类别原型的接近程度进行分类。
  • 在标准化协议(如Xian等人提出的协议)下评估方法,以确保现有研究之间的公平比较。
  • 将分析扩展至广义零样本学习、开集识别和少样本学习,建模测试数据可能属于已见类别、已知未见类别或未知类别的场景。

实验结果

研究问题

  • RQ1如何使视觉识别模型在无任何训练样本的情况下泛化到新型类别?
  • RQ2哪些类型的语义表示(如属性、词向量)在零样本泛化中最为有效?
  • RQ3如何将零样本识别扩展到涉及少样本或开集识别的更真实场景?
  • RQ4当前评估协议和数据集在零样本识别中的关键局限性是什么?
  • RQ5如何将零样本学习与少样本学习结合,以提升模型的鲁棒性和泛化能力?

主要发现

  • 语义表示(如词向量(例如GloVe)和属性)对于实现零样本识别至关重要,因为它们在已见类别和未见类别之间提供了共享的、通用的知识。
  • 标准化的评估协议(如Xian等人提出的协议)对于实现零样本识别方法的公平且可复现的基准测试至关重要。
  • 现有零样本学习方法通常假设未见类别是已知的,这在现实中不切实际;未来工作必须解决具有未知新类别的增量式、开放式学习问题。
  • 在少样本学习框架中将类别原型作为“超样本”进行整合,可显著提升性能,因为原型所承载的知识量远超单一样本。
  • 当前模型在处理超出简单物体类别的复杂视觉概念(如不同语境下的属性“黄色”)时表现不佳,表明需要更精细的语义建模。
  • 课程学习(按顺序组织学习类别)对模型性能有显著影响,提示在终身学习系统中应战略性地设计学习顺序。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。