Skip to main content
QUICK REVIEW

[论文解读] Supervised matrix factorization for cross-modality hashing

Hong Liu, Rongrong Ji|arXiv (Cornell University)|Jul 9, 2016
Advanced Image and Video Retrieval Techniques参考文献 21被引用 22
一句话总结

本文提出了一种新型跨模态哈希方法——监督矩阵分解哈希(SMFH),该方法利用集体非负矩阵分解将多模态数据(例如图像与文本)对齐至共享的汉明空间。通过引入图正则化以保持特征相似性,并利用语义标签,SMFH在三个基准数据集(PASCAL-Sentence、Wiki 和 NUS-WIDE)上提升了检索准确率。

ABSTRACT

Matrix factorization has been recently utilized for the task of multi-modal hashing for cross-modality visual search, where basis functions are learned to map data from different modalities to the same Hamming embedding. In this paper, we propose a novel cross-modality hashing algorithm termed Supervised Matrix Factorization Hashing (SMFH) which tackles the multi-modal hashing problem with a collective non-negative matrix factorization across the different modalities. In particular, SMFH employs a well-designed binary code learning algorithm to preserve the similarities among multi-modal original features through a graph regularization. At the same time, semantic labels, when available, are incorporated into the learning procedure. We conjecture that all these would facilitate to preserve the most relevant information during the binary quantization process, and hence improve the retrieval accuracy. We demonstrate the superior performance of SMFH on three cross-modality visual search benchmarks, i.e., the PASCAL-Sentence, Wiki, and NUS-WIDE, with quantitative comparison to various state-of-the-art methods [Kumar and Udupa, 2011; Rastegari et al., 2013; Zhang and Li, 2014; Ding et al., 2014].

研究动机与目标

  • 为解决跨模态视觉搜索问题,学习异质数据模态的共享二进制编码空间。
  • 通过在二值量化过程中保持多模态特征之间的语义和结构相似性,提升检索准确率。
  • 将语义标签整合到矩阵分解过程中,以指导学习更具判别性的哈希码。
  • 构建一个统一框架,联合优化模态间的特征对齐、相似性保持和标签监督。

提出的方法

  • SMFH 采用集体非负矩阵分解,将来自多个模态的特征矩阵联合分解为共享基函数和系数矩阵。
  • 引入图正则化项,以在嵌入空间中保持原始多模态特征之间的相似性结构。
  • 将语义标签整合到优化目标中,以指导学习反映语义关系的二进制码。
  • 该方法构建了一个统一的目标函数,平衡低秩逼近、基于图的相似性保持和标签监督。
  • 通过迭代优化过程学习二进制码,对系数矩阵施加稀疏性和二值化约束。
  • 该框架端到端训练,以确保汉明空间中视觉与文本特征之间的对齐。

实验结果

研究问题

  • RQ1集体非负矩阵分解能否有效将多模态数据对齐至共享的二进制嵌入空间,以实现跨模态检索?
  • RQ2引入图正则化如何改善学习到的哈希码中的相似性保持?
  • RQ3语义标签在多大程度上增强了学习到的哈希函数的判别能力?
  • RQ4SMFH 在标准跨模态检索基准上的性能与最先进方法相比如何?

主要发现

  • SMFH 在 PASCAL-Sentence、Wiki 和 NUS-WIDE 基准上均优于现有最先进方法,展现出卓越的检索性能。
  • 语义标签的整合显著提升了学习到的哈希码的判别质量。
  • 图正则化在二值量化过程中有效保持了多模态特征的内在相似性结构。
  • 所提方法在所有三个基准上均一致提升了平均精度均值(mAP),优于先前方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。