Skip to main content
QUICK REVIEW

[论文解读] DeepHash: Getting Regularization, Depth and Fine-Tuning Right

Jie Lin, Olivier Morère|arXiv (Cornell University)|Jan 20, 2015
Advanced Image and Video Retrieval Techniques参考文献 48被引用 27
一句话总结

DeepHash 提出了一种基于深度学习的哈希框架,通过正则化、深度结构和弱监督微调,从高维图像描述符(如 Fisher 向量和 DCNN 特征)生成紧凑的 64–1024 位二进制哈希。在 256 位时,其性能与未压缩的浮点特征相差仅 3–5%,在多种数据集和比特率下,相比最先进方法性能提升高达 20%。

ABSTRACT

This work focuses on representing very high-dimensional global image descriptors using very compact 64-1024 bit binary hashes for instance retrieval. We propose DeepHash: a hashing scheme based on deep networks. Key to making DeepHash work at extremely low bitrates are three important considerations -- regularization, depth and fine-tuning -- each requiring solutions specific to the hashing problem. In-depth evaluation shows that our scheme consistently outperforms state-of-the-art methods across all data sets for both Fisher Vectors and Deep Convolutional Neural Network features, by up to 20 percent over other schemes. The retrieval performance with 256-bit hashes is close to that of the uncompressed floating point features -- a remarkable 512 times compression.

研究动机与目标

  • 解决将高维全局图像描述符(如 8192–65536 维的 Fisher 向量和 4096 维的 DCNN 特征)压缩为紧凑的 64–1024 位二进制哈希,同时不损失检索精度的问题。
  • 克服现有哈希方法在低比特率下性能不足的局限,特别是针对高维描述符。
  • 开发一种基于深度学习的哈希方案,通过结构化正则化、足够的网络深度和有效的微调,保持判别能力。
  • 在多种数据集和描述符类型(FV 和 DCNN)下实现稳健性能,尤其在低比特率(如 64 和 256 位)下表现优异。
  • 证明单一预训练的 DeepHash 模型可泛化于多个数据集和描述符类型,最大限度减少对每个数据集的重新训练。

提出的方法

  • 通过分层方式预训练深层堆叠受限玻尔兹曼机(RBM)网络,以初始化具有层次化特征表示的网络,适用于哈希任务。
  • 针对哈希问题专门调整 RBM 正则化,以增强学习到的二进制码的紧凑性和判别性。
  • 使用孪生网络架构对预训练深层网络进行微调,通过一种新型损失函数从匹配与非匹配图像对中学习。
  • 构建一个具有共享权重的深层孪生网络,以学习将高维描述符映射到二进制哈希的判别性投影。
  • 在微调过程中使用弱监督损失函数,促使相似图像之间的汉明距离尽可能小,而不同图像之间的距离尽可能大。
  • 将整个模型训练分为两个阶段:首先通过堆叠 RBM 进行无监督预训练,然后通过孪生对比损失进行弱监督微调。

实验结果

研究问题

  • RQ1一个具有适当正则化和深度的深度神经网络,能否在 64–1024 位下实现对高维图像描述符的近乎无损压缩,生成紧凑的二进制哈希?
  • RQ2正则化、网络深度和微调如何共同影响低比特率下的哈希性能?
  • RQ3与标准预训练或无监督方法相比,孪生网络微调策略是否能显著提升检索精度?
  • RQ4DeepHash 在多种数据集和描述符类型下,与最先进哈希方案(如 ITQ、PQ、LSH、谱哈希)相比表现如何?
  • RQ5256 位 DeepHash 哈希在多大程度上能匹配未压缩浮点描述符的性能?

主要发现

  • DeepHash 在所有数据集和比特率下相比最先进哈希方法性能提升高达 20%,在召回率和平均精度均值(MAP)上均表现出一致优势。
  • 在 256 位表示下,DeepHash 的检索性能与未压缩浮点描述符相差仅 3–5%,实现了 512 倍的压缩比。
  • 对于 DCNN 特征,256 位的 DeepHash 性能几乎与原始 4096 维浮点表示相当,性能仅出现微小下降。
  • 在 64 位时,与 256 位相比,DCNN 特征的 DeepHash 性能下降 5–10%,但依然显著优于其他方法在该比特率下的表现。
  • 在大规模数据集(100 万个干扰项)上,DeepHash 保持强性能,64 位时相比 1024 位性能下降 10–20%,但仍优于所有基线方法。
  • FV-DeepHash 和 DCNN-DeepHash 均表现出一致改进,其中 DCNN-DeepHash 在大多数数据集上优于 FV-DeepHash,原因在于其初始维度更低且低层特征学习更丰富。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。