QUICK REVIEW

[论文解读] A Survey on Deep Hashing Methods

Xiao Luo, Haixin Wang|arXiv (Cornell University)|Mar 4, 2020

Advanced Image and Video Retrieval Techniques被引用 29

一句话总结

本综述全面概述了深度哈希方法，将深度监督哈希分类为成对、基于排序、点对和量化方法，将深度无监督哈希分类为基于相似性重建、基于伪标签和无预测自监督方法。研究表明，对比学习和语义结构建模显著提升了检索性能，SOTA模型在CIFAR-10和NUS-WIDE等基准数据集上的表现优于传统方法。

ABSTRACT

Nearest neighbor search aims to obtain the samples in the database with the smallest distances from them to the queries, which is a basic task in a range of fields, including computer vision and data mining. Hashing is one of the most widely used methods for its computational and storage efficiency. With the development of deep learning, deep hashing methods show more advantages than traditional methods. In this survey, we detailedly investigate current deep hashing algorithms including deep supervised hashing and deep unsupervised hashing. Specifically, we categorize deep supervised hashing methods into pairwise methods, ranking-based methods, pointwise methods as well as quantization according to how measuring the similarities of the learned hash codes. Moreover, deep unsupervised hashing is categorized into similarity reconstruction-based methods, pseudo-label-based methods and prediction-free self-supervised learning-based methods based on their semantic learning manners. We also introduce three related important topics including semi-supervised deep hashing, domain adaption deep hashing and multi-modal deep hashing. Meanwhile, we present some commonly used public datasets and the scheme to measure the performance of deep hashing algorithms. Finally, we discuss some potential research directions in conclusion.

研究动机与目标

系统性地对当前深度哈希方法进行分类与分析，重点关注深度监督与无监督学习范式。
识别并解释不同深度哈希架构背后的核心设计原则，特别是在相似性度量与损失函数构建方面。
在监督与无监督设置下，考察深度哈希模型在标准基准数据集（包括CIFAR-10、NUS-WIDE和MS COCO）上的性能表现。
探讨半监督哈希、域自适应和多模态哈希等新兴主题，突出其挑战与最新进展。
通过识别现有方法中的研究空白，并建议与近似最近邻算法集成以实现真实世界部署，为未来研究奠定基础。

提出的方法

根据相似性度量方式对深度监督哈希进行分类：成对、基于排序、点对和量化方法，各类方法具有不同的优化目标。
根据无监督哈希中语义信息的学习方式，将其分为三类：基于相似性重建、基于伪标签和基于无预测自监督学习的方法。
采用标准的深度神经网络主干网络（如VGG-F、ResNet50和AlexNet），以确保在表示能力方面对不同方法进行公平比较。
在公开数据集（CIFAR-10、NUS-WIDE、MS COCO）上使用标准评估协议，采用mAP（平均平均精度）和top-k检索准确率等指标进行评估。
在无监督方法中应用对比学习与正则化技术，以提升可区分哈希码的学习效果。
在固定GPU配置下比较各方法的训练效率，并报告每轮训练时间，以评估计算成本。

实验结果

研究问题

RQ1不同深度监督哈希方法在测量哈希码之间相似性方面有何差异？
RQ2深度无监督哈希中的关键语义学习机制是什么？它们如何影响检索性能？
RQ3在无监督设置下，对比学习与相似性结构建模如何提升所学哈希码的质量？
RQ4在CIFAR-10和NUS-WIDE等标准基准上，深度监督与无监督哈希方法的性能差异是什么？
RQ5在扩展至半监督、域自适应和多模态检索场景时，主要挑战与机遇是什么？

主要发现

基于对比学习的方法（如CIBHash和DATE）在无监督基准上达到SOTA性能，优于传统方法（如ITQ和DGH）。
更准确建模相似性结构的方法（如DATE和TBH）优于使用粗粒度相似性估计的方法，因为错误信号会降低性能。
无监督深度哈希模型，尤其是采用自监督学习的模型，其性能可与甚至超过某些监督方法，显示出在真实世界部署中的巨大潜力。
仅使用正则化（如DeepBits和UTH中）会导致性能较差，表明语义结构学习对于有效生成哈希码至关重要。
不同深度哈希方法之间的训练时间差异极小，因为计算成本主要由网络主干决定，而非哈希特异性优化。
OrthHash由于采用简单且单一目标的优化方案，在对比方法中训练速度最快，凸显了设计中的效率权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。