[论文解读] Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval
本文提出深度语义排序哈希(DSRH),一种新颖的深度学习框架,通过使用具有列表排序监督的卷积神经网络(CNN),联合学习特征表示与哈希码,以在多标签图像中保持多层次语义相似性。通过采用代理损失函数处理非平滑排序优化,DSRH在多标签检索基准上显著优于现有最先进哈希方法,在NDCG、ACG和mAP指标上达到最先进性能。
With the rapid growth of web images, hashing has received increasing interests in large scale image retrieval. Research efforts have been devoted to learning compact binary codes that preserve semantic similarity based on labels. However, most of these hashing methods are designed to handle simple binary similarity. The complex multilevel semantic structure of images associated with multiple labels have not yet been well explored. Here we propose a deep semantic ranking based method for learning hash functions that preserve multilevel semantic similarity between multi-label images. In our approach, deep convolutional neural network is incorporated into hash functions to jointly learn feature representations and mappings from them to hash codes, which avoids the limitation of semantic representation power of hand-crafted features. Meanwhile, a ranking list that encodes the multilevel similarity information is employed to guide the learning of such deep hash functions. An effective scheme based on surrogate loss is used to solve the intractable optimization problem of nonsmooth and multivariate ranking measures involved in the learning procedure. Experimental results show the superiority of our proposed approach over several state-of-the-art hashing methods in term of ranking evaluation metrics when tested on multi-label image datasets.
研究动机与目标
- 解决现有哈希方法在保持多标签图像之间复杂、多层次语义相似性方面的局限性。
- 通过将深度卷积神经网络(CNN)直接集成到哈希函数学习流程中,克服手工设计特征导致的语义鸿沟。
- 开发一种联合优化框架,同时学习特征表示与二进制哈希码,而非采用两阶段流程。
- 提出一种基于三元组排序的代理损失,以有效处理深度哈希中排序优化的非平滑与多变量特性。
- 通过基于标签的排序列表显式建模语义相似性,提升多标签图像数据集上的检索性能。
提出的方法
- 使用卷积神经网络(CNN)构建深度哈希函数,将原始图像直接映射到二进制哈希码,实现特征与代码的端到端学习。
- 基于查询图像与数据库图像之间的共享标签,构建多层次语义排序列表,以编码相对相似性(例如:非常相似、通常相似、不相似)。
- 将学习目标表述为图像三元组上的列表排序问题,确保在汉明空间中保持相似性的相对顺序。
- 使用基于一组三元组的代理损失函数,近似不可微的多变量排序度量(如NDCG或ACG),从而支持随机梯度下降优化。
- 实施端到端联合训练方案,同时优化CNN特征与哈希映射,引入跳跃连接与自适应加权机制,以提升多层次相似性的特征表示。
- 使用预训练与微调后的CNN特征对模型进行评估,证明联合学习相比仅微调特征的基线方法具有优势。
实验结果
研究问题
- RQ1具有列表排序监督的深度神经网络能否在多标签图像检索中有效保持多层次语义相似性?
- RQ2端到端联合学习特征与哈希码与传统两阶段流程(使用手工特征或预训练特征)相比表现如何?
- RQ3使用代理损失处理非平滑排序度量在多大程度上改善了深度哈希中的优化与检索性能?
- RQ4在排序损失中引入自适应加权是否能提升检索质量,特别是对前100名结果的性能?
- RQ5当在多标签数据集上使用预训练与微调后的CNN特征时,所提方法相对于最先进哈希方法的表现如何?
主要发现
- DSRH在MIRFLICKR-25K与NUS-WIDE数据集上均达到最先进性能,在NDCG、ACG与加权mAP等所有排序评估指标上均优于现有哈希方法。
- 使用代理损失并结合自适应权重可显著提升前100名的NDCG与ACG得分,强调更相关项目,尽管平均排名性能略有下降。
- 将第一层全连接层直接连接到哈希层可提升性能,通过保留更多与多层次语义相似性相关的视觉外观信息。
- 即使使用微调后的CNN特征,DSRH仍持续优于其他方法(包括CCA-ITQ与HDML),证明其联合学习与排序监督的有效性。
- 将多个CNN层(如最后两层)的特征拼接的方法性能劣于DSRH,验证了其紧密耦合哈希函数设计的优越性。
- 当使用微调特征时,无监督ITQ的性能几乎与有监督的CCA-ITQ相当,但DSRH仍全面超越两者,凸显显式多层次排序监督的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。