QUICK REVIEW

[论文解读] HashNet: Deep Learning to Hash by Continuation

Zhangjie Cao, Mingsheng Long|arXiv (Cornell University)|Feb 2, 2017

Advanced Image and Video Retrieval Techniques参考文献 38被引用 71

一句话总结

HashNet 引入一种基于续化的深度学习哈希框架，在不平衡的成对监督下直接学习精确的二进制哈希码，在标准基准上实现了最先进的检索性能。

ABSTRACT

Learning to hash has been widely applied to approximate nearest neighbor search for large-scale multimedia retrieval, due to its computation efficiency and retrieval quality. Deep learning to hash, which improves retrieval quality by end-to-end representation learning and hash encoding, has received increasing attention recently. Subject to the ill-posed gradient difficulty in the optimization with sign activations, existing deep learning to hash methods need to first learn continuous representations and then generate binary hash codes in a separated binarization step, which suffer from substantial loss of retrieval quality. This work presents HashNet, a novel deep architecture for deep learning to hash by continuation method with convergence guarantees, which learns exactly binary hash codes from imbalanced similarity data. The key idea is to attack the ill-posed gradient problem in optimizing deep networks with non-smooth binary activations by continuation method, in which we begin from learning an easier network with smoothed activation function and let it evolve during the training, until it eventually goes back to being the original, difficult to optimize, deep network with the sign activation function. Comprehensive empirical evidence shows that HashNet can generate exactly binary hash codes and yield state-of-the-art multimedia retrieval performance on standard benchmarks.

研究动机与目标

解决在端到端哈希中训练符号激活网络时的病态梯度问题。
缓解哈希成对相似度学习中的数据不平衡。
在不需要后二值化损失的情况下学习精确的二进制哈希码。
为基于续化的优化提供收敛保证。
在标准基准上展示出卓越的检索性能。

提出的方法

使用带有全连接哈希层的卷积神经网络来产生 K 维表示。
对哈希层应用符号激活以获得精确的二进制码。
采用加权最大似然目标函数，在数据不平衡下保持成对相似度。
引入一个续化策略，起始使用光滑的 tanh 激活，逐步提高非平滑性以收敛到符号激活。
定义成对逻辑似然 P(sij|hi,hj) 及自适应 Sigmoid 以引导学习。
给出收敛结果，显示阶段间损失稳定性以及在阶段内基于 SGD 的下降。

实验结果

研究问题

RQ1是否可以在不需要单独二值化步骤的情况下，直接使用符号激活学习端到端哈希？
RQ2如何在深度哈希中解决病态梯度和数据不平衡？
RQ3相较于以往的深度哈希方法，续化优化是否能提升检索质量？
RQ4在不平衡相似性数据下，加权似然和续化对学习到的哈希码有什么影响？

主要发现

HashNet 在 ImageNet、NUS-WIDE 和 MS COCO 上针对 16–64 位码实现了最先进的检索性能。
HashNet 在浅层和深度哈希基线上均显示出显著的 MAP 增益，例如在各数据集上对 ITQ/ITQ-CCA 以及 DHN 的绝对 MAP 提升很大。
加权最大似然与续化方法带来显著增益，例如 HashNet-C 与 HashNet- continuation 变体在对比方法上具有明显优势。
P@H=2（哈明距离为 2 的精度）在各数据集上均为 HashNet 最高，表明紧凑码的强排序能力。
t-SNE 可视化表明 HashNet 的哈希码比 DHN 更具判别性，反映学习码在类别分离上的提升。
消融分析显示续化与加权是关键，某些数据集上 HashNet 相较变体在 MAP 增益达到十位数级别。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。