[论文解读] Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval
SSAH 引入自监督语义学习,结合两个对抗网络共同学习图像/文本哈希码,在跨模态检索上达到最先进性能,适用于基准数据集。
Thanks to the success of deep learning, cross-modal retrieval has made significant progress recently. However, there still remains a crucial bottleneck: how to bridge the modality gap to further enhance the retrieval accuracy. In this paper, we propose a self-supervised adversarial hashing ( extbf{SSAH}) approach, which lies among the early attempts to incorporate adversarial learning into cross-modal hashing in a self-supervised fashion. The primary contribution of this work is that two adversarial networks are leveraged to maximize the semantic correlation and consistency of the representations between different modalities. In addition, we harness a self-supervised semantic network to discover high-level semantic information in the form of multi-label annotations. Such information guides the feature learning process and preserves the modality relationships in both the common semantic space and the Hamming space. Extensive experiments carried out on three benchmark datasets validate that the proposed SSAH surpasses the state-of-the-art methods.
研究动机与目标
- 通过学习相关联的高维特征和二元哈希码来缩小跨模态检索中的模态差距。
- 整合自监督语义学习以发现引导跨模态表示学习的多标签信息。
- 利用两个对抗网络最大化跨模态的语义相关性和分布一致性。
- 在基准数据集上展示相对于最先进的跨模态哈希方法的卓越性能。
提出的方法
- 三段式架构:LabNet(自监督语义生成)、ImgNet(图像哈希)、TxtNet(文本哈希)。
- 两个对抗判别器强制语义特征与模态特定特征之间的分布对齐。
- 通过 LabNet 提供的自监督语义引导,通过共享的语义表示和哈希码对 ImgNet 和 TxtNet 进行监督。
- 通过对生成和对抗损失的联合优化,结合二值化和分类约束,生成 B^{v,t,l} ∈ {-1,1}^K。
实验结果
研究问题
- RQ1自监督语义如何提升跨模态哈希性能?
- RQ2对抗学习是否可用于对齐多模态分布并在统一空间中保持语义相关性?
- RQ3将 LabNet 与模态特定生成器结合对跨基准检索准确率有何影响?
- RQ4在大规模数据集上,SSAH 与最先进的跨模态哈希方法相比如何?
- RQ5该框架是否可扩展到两种以上模态和未见数据点?
主要发现
- 在 I→T 和 T→I 任务上,SSAH 在 MIRFLICKR-25K、NUS-WIDE 和 MS COCO 上的平均精度(MAP)超过若干基线。
- 在 CNN-F 与 vgg19 特征下,SSAH 始终优于基线,包括诸如 DCMH 这样的深度学习方法。
- SSAH 相对于浅层方法显示显著的 MAP 增益,相对于 DCMH 也具有竞争性提升,验证了自监督对抗框架的有效性。
- 消融研究表明自监督语义网络(LabNet)显著提升性能,对抗学习有助于桥接模态差距。
- SSAH 的训练比 DCMH 更高效,在报道的实验中大约快一个数量级。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。