Skip to main content
QUICK REVIEW

[论文解读] Zero-Shot Hashing via Transferring Supervised Knowledge

Yang Yang, Wei‐Lun Chen|arXiv (Cornell University)|Jun 16, 2016
Advanced Image and Video Retrieval Techniques参考文献 34被引用 33
一句话总结

本文提出零样本哈希(ZSH),一种新颖方法,通过将0/1标签向量投影到语义嵌入空间并利用旋转对齐以减少语义偏移,从而将已见图像类别上的监督知识迁移至未见类别。ZSH在CIFAR-10、ImageNet和MIRFlickr数据集上的零样本图像检索任务中达到最先进性能,128位编码下MAP指标最高提升达19%。

ABSTRACT

Hashing has shown its efficiency and effectiveness in facilitating large-scale multimedia applications. Supervised knowledge e.g. semantic labels or pair-wise relationship) associated to data is capable of significantly improving the quality of hash codes and hash functions. However, confronted with the rapid growth of newly-emerging concepts and multimedia data on the Web, existing supervised hashing approaches may easily suffer from the scarcity and validity of supervised information due to the expensive cost of manual labelling. In this paper, we propose a novel hashing scheme, termed \emph{zero-shot hashing} (ZSH), which compresses images of "unseen" categories to binary codes with hash functions learned from limited training data of "seen" categories. Specifically, we project independent data labels i.e. 0/1-form label vectors) into semantic embedding space, where semantic relationships among all the labels can be precisely characterized and thus seen supervised knowledge can be transferred to unseen classes. Moreover, in order to cope with the semantic shift problem, we rotate the embedded space to more suitably align the embedded semantics with the low-level visual feature space, thereby alleviating the influence of semantic gap. In the meantime, to exert positive effects on learning high-quality hash functions, we further propose to preserve local structural property and discrete nature in binary codes. Besides, we develop an efficient alternating algorithm to solve the ZSH model. Extensive experiments conducted on various real-life datasets show the superior zero-shot image retrieval performance of ZSH as compared to several state-of-the-art hashing methods.

研究动机与目标

  • 解决大规模多媒体系统中新兴图像类别标注数据不足的挑战。
  • 在无需为未见类别手动标注的前提下,实现对未见类别的有效图像检索。
  • 通过建模标签之间的语义关系,将已见类别的监督知识迁移至未见类别。
  • 通过嵌入空间旋转减少视觉特征与高层语义之间的语义鸿沟。
  • 保持哈希码的局部结构与离散特性,以提升检索质量。

提出的方法

  • 将0/1形式的标签向量投影到预训练的语义嵌入空间(如Word2Vec或GloVe),以建模所有类别之间的语义关系。
  • 对嵌入的语义空间应用旋转操作,使其更贴近视觉特征空间,从而减少语义偏移。
  • 构建ZSH模型,联合优化哈希码学习、语义对齐以及局部数据结构的保持。
  • 通过在学习目标中引入离散优化约束,强制哈希码保持离散特性。
  • 采用交替优化算法迭代更新哈希码与嵌入参数,确保收敛性。
  • 利用辅助数据集(如ImageNet)训练哈希函数,并在零样本检索任务上进行评估。

实验结果

研究问题

  • RQ1能否有效迁移已见图像类别上的监督知识,以实现对未见类别的检索?
  • RQ2如何建模标签之间的语义关系,以提升对未见类别的泛化能力?
  • RQ3通过嵌入空间旋转实现语义对齐,在多大程度上能减少视觉特征与高层语义之间的语义鸿沟?
  • RQ4在零样本设置下,保持哈希码的局部结构与离散特性是否能提升检索性能?
  • RQ5在多样化的现实世界数据集上,ZSH与最先进哈希方法在零样本图像检索中的表现如何比较?

主要发现

  • ZSH在所有测试数据集上均取得最高的平均平均精度(MAP),在MIRFlickr数据集上128位编码下相较第二好的方法(COSDISH)提升高达19%。
  • 在CIFAR-10数据集上,ZSH在32位编码下MAP达到0.3262,显著优于第二好的方法在Precision@related指标上的表现。
  • 在所有数据集上,ZSH在不同编码长度下均表现出一致的优越性,MAP与Precision指标均领先;但超过64位后性能因噪声增加而下降。
  • 采用旋转的语义嵌入空间有效缓解了语义偏移问题,提升了视觉特征与标签语义之间的对齐程度。
  • ZSH在真实多标签数据(MIRFlickr)上保持强性能,其中图像共享重叠标签,证实了其实际适用性。
  • 交替优化算法展现出经验上的收敛性与效率,支持ZSH模型的有效训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。