[论文解读] Deep Cross-Modal Hashing
本文提出深度跨模态哈希(DCMH),一种端到端的深度学习框架,联合学习判别性特征与离散哈希码,用于跨模态检索。通过在每个模态的单一深度神经网络中整合特征学习与哈希码学习,DCMH 在文本-图像检索基准上优于最先进方法,在无需松弛优化的情况下,于多个数据集和哈希码长度下均实现了最佳的 F-measure。
Due to its low storage cost and fast query speed, cross-modal hashing (CMH) has been widely used for similarity search in multimedia retrieval applications. However, almost all existing CMH methods are based on hand-crafted features which might not be optimally compatible with the hash-code learning procedure. As a result, existing CMH methods with handcrafted features may not achieve satisfactory performance. In this paper, we propose a novel cross-modal hashing method, called deep crossmodal hashing (DCMH), by integrating feature learning and hash-code learning into the same framework. DCMH is an end-to-end learning framework with deep neural networks, one for each modality, to perform feature learning from scratch. Experiments on two real datasets with text-image modalities show that DCMH can outperform other baselines to achieve the state-of-the-art performance in cross-modal retrieval applications.
研究动机与目标
- 为解决现有跨模态哈希(CMH)方法依赖于与哈希码学习不兼容的手工设计特征的局限性。
- 开发一种端到端的深度学习框架,同时执行特征学习与离散哈希码学习,以提升跨模态检索性能。
- 通过直接学习二进制哈希码,消除离散优化中的松弛步骤,避免因连续松弛导致的精度下降。
- 在真实世界文本-图像数据集上,使用手工特征与深度特征均展示出优越性能。
提出的方法
- DCMH 为每个模态(如图像与文本)使用一个深度神经网络,直接从原始输入数据学习判别性特征。
- 通过联合损失函数在端到端方式下联合优化特征学习与哈希码学习,该损失函数保留了跨模态相似性。
- 通过使用代理函数近似离散优化问题,直接优化离散二进制码,而不松弛离散约束。
- 通过基于边距的排序损失进行反向传播训练,该损失促使相似样本在汉明空间中具有接近的哈希码,而不同样本则相距较远。
- 采用基于随机梯度下降的优化策略以最小化联合损失,实现高效的端到端训练。
- 该框架在超参数 γ 和 η 的 [0.5, 2] 范围内具有鲁棒性,确保在不同设置下性能稳定。
实验结果
研究问题
- RQ1端到端深度学习能否联合优化特征提取与哈希码生成,以提升跨模态检索性能?
- RQ2在离散哈希码学习中消除松弛步骤是否能相比现有方法带来更高的检索精度?
- RQ3DCMH 在使用深度特征(如 CNN-F)与手工特征时,在跨模态检索中的表现如何?
- RQ4DCMH 在损失函数中对超参数 γ 和 η 的变化是否具有鲁棒性?
- RQ5DCMH 能否在真实世界文本-图像检索基准上实现最先进性能?
主要发现
- 在 MIRFLICKR-25K 数据集上使用 CNN-F 特征与 16 位哈希码时,DCMH 在汉明半径 2 下实现文本到图像检索的 F-measure 为 0.3416,优于所有基线方法。
- 在 MIRFLICKR-25K 上进行图像到文本检索时,DCMH 在汉明半径 2 下的 F-measure 为 0.3367,显著优于 STMH(0.0287)与 SePH(0.2215),尽管 STMH 具有更高的精确率。
- 在 MIRFLICKR-25K 与 NUS-WIDE 数据集上,DCMH 在所有测试情形(图像到文本与文本到图像)中均实现了最高 F-measure(16 位哈希码)。
- 在 MIRFLICKR-25K 上,DCMH 在汉明半径 2 内为图像查询检索到 487 个真实相似点,而 STMH 仅检索到 3 个,表明其具有更优的召回率与实际应用价值。
- 该方法在不同哈希码长度下均保持强性能,且对超参数 γ 与 η 在 [0.5, 2] 范围内的变化表现出较低敏感性,表明其具有鲁棒性。
- DCMH 在精确率、召回率与 F-measure 上全面优于所有基线方法(包括 SePH、STMH、CMFH 与 CCA),尤其在更贴近实际检索应用的召回率与 F-measure 上表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。