[论文解读] Deep Sketch Hashing: Fast Free-hand Sketch-Based Image Retrieval
本文提出深度草图哈希(DSH),一种新颖的端到端深度哈希框架,通过为草图和自然图像学习紧凑的二进制编码,加速了自由手绘草图图像检索(SBIR)。通过引入带有辅助草图标记的半异构卷积神经网络架构以减少几何失真,DSH 在 TU-Berlin Extension 和 Sketchy 等大规模数据集上实现了最先进的检索准确率,同时显著提升了速度并降低了内存使用量。
Free-hand sketch-based image retrieval (SBIR) is a specific cross-view retrieval task, in which queries are abstract and ambiguous sketches while the retrieval database is formed with natural images. Work in this area mainly focuses on extracting representative and shared features for sketches and natural images. However, these can neither cope well with the geometric distortion between sketches and images nor be feasible for large-scale SBIR due to the heavy continuous-valued distance computation. In this paper, we speed up SBIR by introducing a novel binary coding method, named extbf{Deep Sketch Hashing} (DSH), where a semi-heterogeneous deep architecture is proposed and incorporated into an end-to-end binary coding framework. Specifically, three convolutional neural networks are utilized to encode free-hand sketches, natural images and, especially, the auxiliary sketch-tokens which are adopted as bridges to mitigate the sketch-image geometric distortion. The learned DSH codes can effectively capture the cross-view similarities as well as the intrinsic semantic correlations between different categories. To the best of our knowledge, DSH is the first hashing work specifically designed for category-level SBIR with an end-to-end deep architecture. The proposed DSH is comprehensively evaluated on two large-scale datasets of TU-Berlin Extension and Sketchy, and the experiments consistently show DSH's superior SBIR accuracies over several state-of-the-art methods, while achieving significantly reduced retrieval time and memory footprint.
研究动机与目标
- 为解决类别级草图图像检索(SBIR)中自由手绘草图与自然图像之间的几何失真问题。
- 通过用二进制哈希替代连续值距离计算,提升大规模 SBIR 的检索效率。
- 在端到端框架中联合优化深度哈希函数与二进制编码,以实现更好的跨视角相似性学习。
- 利用辅助草图标记作为中间表示,缓解草图与图像之间的域差距。
- 在计算和内存开销较低的前提下实现高检索准确率,适用于移动和可穿戴设备。
提出的方法
- 一种半异构深度架构,包含三个独立的卷积神经网络:一个用于草图,一个用于自然图像,以及一个中间网络用于辅助草图标记,以弥合模态差异。
- 草图标记网络处理从草图中提取的边缘特征表示,以建模结构一致性并减少几何失真。
- 通过交替优化过程学习二进制编码,联合最小化跨视角成对相似性损失和语义因子分解损失。
- 该框架以端到端方式集成深度特征学习与二进制编码,实现哈希函数与编码的联合优化。
- 该方法使用对比损失以保持草图-图像对之间的语义相似性,同时使用因子分解损失以捕捉内在类别相关性。
- 该架构端到端训练,生成保留跨模态与类别内关系的紧凑 128 位二进制编码。
实验结果
研究问题
- RQ1深度哈希框架能否有效减少 SBIR 中自由手绘草图与自然图像之间的几何失真?
- RQ2与传统连续特征方法相比,二进制编码与深度哈希函数的端到端学习是否能提升检索准确率?
- RQ3辅助草图标记能否显著增强草图检索中的跨视角特征对齐与语义一致性?
- RQ4与当前最优的 SBIR 和跨模态哈希方法相比,DSH 在准确率、速度和内存效率方面表现如何?
- RQ5成对相似性损失与语义因子分解损失的联合优化在多大程度上提升了检索性能?
主要发现
- DSH 在 TU-Berlin Extension 数据集上使用 128 位编码实现 0.570 的平均平均精度(MAP),在 Sketchy 数据集上实现 0.783 的 MAP,优于所有对比的当前最优方法。
- 与不使用草图标记的模型相比,草图标记的引入使 Sketchy 数据集上的 MAP 损失减少 0.101,TU-Berlin Extension 数据集上减少 0.073,证明其在缓解几何失真方面的有效性。
- DSH 的检索速度显著快于基于连续值特征的传统 SBIR 方法,且内存占用更低,适用于移动和嵌入式系统。
- 消融研究证实,跨视角成对损失和语义因子分解损失均不可或缺,任一移除均导致 MAP 性能下降。
- t-SNE 可视化显示,DSH 编码将同一类别的草图与图像聚类在一起,语义相似的类别在嵌入空间中彼此靠近。
- 精确率-召回率曲线与 HD2 曲线表明,DSH 在各种编码长度下均持续获得比竞争方法更高的曲线下方面积(AUC)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。