Skip to main content
QUICK REVIEW

[論文レビュー] Supervised matrix factorization for cross-modality hashing

Hong Liu, Rongrong Ji|arXiv (Cornell University)|Jul 9, 2016
Advanced Image and Video Retrieval Techniques参考文献 21被引用数 22
ひとこと要約

本論文は、複数モダリティのデータ(例えば画像とテキスト)を共有のハミング空間にアライメントするための、共同非負行列分解を用いた新規なクロスモダリティハッシング手法であるSupervised Matrix Factorization Hashing (SMFH)を提案する。グラフ正則化を統合して特徴類似度を保持するとともに、意味的ラベルを活用することで、PASCAL-Sentence、Wiki、NUS-WIDEの3つのベンチマークで検索精度が向上する。

ABSTRACT

Matrix factorization has been recently utilized for the task of multi-modal hashing for cross-modality visual search, where basis functions are learned to map data from different modalities to the same Hamming embedding. In this paper, we propose a novel cross-modality hashing algorithm termed Supervised Matrix Factorization Hashing (SMFH) which tackles the multi-modal hashing problem with a collective non-negative matrix factorization across the different modalities. In particular, SMFH employs a well-designed binary code learning algorithm to preserve the similarities among multi-modal original features through a graph regularization. At the same time, semantic labels, when available, are incorporated into the learning procedure. We conjecture that all these would facilitate to preserve the most relevant information during the binary quantization process, and hence improve the retrieval accuracy. We demonstrate the superior performance of SMFH on three cross-modality visual search benchmarks, i.e., the PASCAL-Sentence, Wiki, and NUS-WIDE, with quantitative comparison to various state-of-the-art methods [Kumar and Udupa, 2011; Rastegari et al., 2013; Zhang and Li, 2014; Ding et al., 2014].

研究の動機と目的

  • 異種のデータモダリティのための共有バイナリコード空間を学習することで、クロスモダリティ視覚検索の課題に取り組む。
  • バイナリ量子化の過程でマルチモーダル特徴間の意味的および構造的類似度を保持することで、検索精度を向上させる。
  • 意味的ラベルを行列因子分解プロセスに統合し、より判別力のあるハッシュコードの学習を促進する。
  • 複数モダリティにわたる特徴アライメント、類似度保持、ラベル監視を統合的に最適化する統一フレームワークを構築する。

提案手法

  • SMFHは、複数モダリティからの特徴行列を共同で因子分解し、共有の基本関数と係数行列に分解するため、共同非負行列因子分解を用いる。
  • 埋め込み空間における元のマルチモーダル特徴の類似構造を保持するために、グラフ正則化項を導入する。
  • 意味的ラベルを最適化目的関数に統合し、意味関係を反映するバイナリコードの学習をガイドする。
  • 低ランク近似、グラフベースの類似度保持、ラベル監視のバランスを取る統一された目的関数を定式化する。
  • 係数行列に対するスパarsityとバイナリ制約を強制する反復的最適化プロセスを通じてバイナリコードを学習する。
  • エンドツーエンドの学習により、ハミング空間における視覚的およびテキスト的特徴のアライメントを保証する。

実験結果

リサーチクエスチョン

  • RQ1共同非負行列因子分解は、クロスモダリティ検索のための共有バイナリ埋め込み空間へのマルチモーダルデータの効果的アライメントに有効であるか?
  • RQ2グラフ正則化を組み込むことで、学習されたハッシュコードにおける類似度保持がどのように向上するか?
  • RQ3意味的ラベルの統合が、学習されたハッシュ関数の判別力にどの程度寄与するか?
  • RQ4標準的なクロスモダリティ検索ベンチマークにおいて、SMFHは最先端手法と比較してどの程度の性能を示すか?

主な発見

  • SMFHは、既存の最先端手法と比較して、PASCAL-Sentence、Wiki、NUS-WIDEベンチマークで優れた検索性能を達成する。
  • 意味的ラベルの統合により、学習されたハッシュコードの判別品質が顕著に向上する。
  • グラフ正則化は、バイナリ量子化プロセス中にマルチモーダル特徴の内在的類似構造を効果的に保持する。
  • 本手法は、3つのベンチマークすべてにおいて平均平均精度(mAP)に一貫した向上を示し、先行手法を上回る性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。