QUICK REVIEW

[论文解读] Learning to Hash with Binary Deep Neural Network

Thanh-Toan Do, Anh-Dzung Doan|arXiv (Cornell University)|Jul 18, 2016

Advanced Image and Video Retrieval Techniques被引用 34

一句话总结

本文提出二值深度神经网络（BDNN）用于无监督和有监督哈希，通过约束隐藏层直接生成二值码，以强制实现二值性、独立性和平衡性。通过避免对二值约束进行松弛，并采用精心设计的交替优化方法，该方法在CIFAR10、MNIST和NUS-WIDE数据集上实现了最先进性能，mAP和precision@2指标均优于先前的深度哈希和基于CNN的方法。

ABSTRACT

This work proposes deep network models and learning algorithms for unsupervised and supervised binary hashing. Our novel network design constrains one hidden layer to directly output the binary codes. This addresses a challenging issue in some previous works: optimizing non-smooth objective functions due to binarization. Moreover, we incorporate independence and balance properties in the direct and strict forms in the learning. Furthermore, we include similarity preserving property in our objective function. Our resulting optimization with these binary, independence, and balance constraints is difficult to solve. We propose to attack it with alternating optimization and careful relaxation. Experimental results on three benchmark datasets show that our proposed methods compare favorably with the state of the art.

研究动机与目标

为解决非光滑、NP难的二值哈希优化问题，通过直接约束网络层输出二值码。
在训练过程中严格强制二值码的独立性和平衡性，无需松弛或近似。
将相似性保持整合到目标函数中，以实现有效的视觉检索。
提出一种基于交替优化和松弛的可扩展优化框架，以处理硬性离散约束。
通过利用标签信息保留语义相似性，将无监督方法扩展至有监督哈希。

提出的方法

网络架构包含一个专用隐藏层，直接输出{-1, 1}^L中的二值码，无需通过sgn或阈值化进行后处理。
目标函数包含相似性保持、严格独立性（比特间不相关）和平衡性（每位为±1的概率为50%）的项。
提出一种新颖的优化策略：在网络权重和二值码之间交替优化，并通过符号函数的连续松弛来放松二值约束。
采用重参数化技巧，在反向传播中通过近似处理不可微的sgn函数。
在有监督哈希中，将基于标签的成对相似性引入损失函数，以保留语义关系。
训练过程交替更新网络权重（通过随机梯度下降）和将连续输出投影到最近的二值码。

实验结果

研究问题

RQ1与松弛或后处理二值化相比，深度网络层直接输出二值码是否能提升哈希性能？
RQ2在端到端训练中，如何以可微且严格的方式强制实现二值码的独立性和平衡性？
RQ3同时整合相似性保持、独立性和平衡性是否能带来更高的检索准确率？
RQ4所提出的优化框架能否有效处理具有二值性、独立性和平衡性约束的NP难离散哈希问题？
RQ5在mAP和precision@2指标上，该方法与最先进深度哈希和基于CNN的哈希方法相比表现如何？

主要发现

在CIFAR10上，SH-BDNN在L=32时达到69.62% mAP，优于SDH（67.63%）、KSH（65.76%）和BRE（44.89%）在相同码长下的表现。
在MNIST上，SH-BDNN在L=32时达到95.51% precision@2，显著优于SDH（94.43%）和ITQ-CCA（84.57%）在低码长下的表现。
与基于CNN的方法DSRH和DRSCH相比，SH-BDNN在CIFAR10上于L=32时达到66.22% mAP，超过DRSCH（63.05%）和DSRH（61.77%）。
在CIFAR10上，该方法在L=8时达到54.12% mAP，优于SDH（31.60%）和BRE（23.84%）在相同低比特长度下的表现。
该方法在所有码长下均保持强劲性能，在所有基准数据集上mAP和precision@2均持续领先。
消融研究证实，严格强制独立性和平衡性可提升检索准确率，尤其在低比特长度下更为显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。