QUICK REVIEW

[論文レビュー] Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

Chao Li, Cheng Deng|arXiv (Cornell University)|Apr 4, 2018

Advanced Image and Video Retrieval Techniques参考文献 14被引用数 53

ひとこと要約

SSAH は二つの敵対的ネットワークを用いた自己教師付き意味学習を導入し、画像/テキストのハッシュコードを共同で学習させ、ベンチマーク全体でクロスモーダル検索の最先端を達成します。

ABSTRACT

Thanks to the success of deep learning, cross-modal retrieval has made significant progress recently. However, there still remains a crucial bottleneck: how to bridge the modality gap to further enhance the retrieval accuracy. In this paper, we propose a self-supervised adversarial hashing ( extbf{SSAH}) approach, which lies among the early attempts to incorporate adversarial learning into cross-modal hashing in a self-supervised fashion. The primary contribution of this work is that two adversarial networks are leveraged to maximize the semantic correlation and consistency of the representations between different modalities. In addition, we harness a self-supervised semantic network to discover high-level semantic information in the form of multi-label annotations. Such information guides the feature learning process and preserves the modality relationships in both the common semantic space and the Hamming space. Extensive experiments carried out on three benchmark datasets validate that the proposed SSAH surpasses the state-of-the-art methods.

研究の動機と目的

クロスモーダル検索におけるモダリティ間のギャップを、相関のある高次元特徴と二値ハッシュコードを学習することで埋める。
自己教師付き意味学習を統合して、クロスモーダル表現学習を導く多値情報を発見する。
二つの敵対的ネットワークを活用して、意味的相関とモダリティ間の分布整合を最大化する。
ベンチマークデータセットで、最先端のクロスモーダルハッシュ法と比較して優れた性能を示す。

提案手法

三部構成のアーキテクチャ: LabNet（自己教師付き意味生成）, ImgNet（画像ハッシュ化）, TxtNet（テキストハッシュ化）.
二つの敵対的判別器が、意味特徴とモダリティ特有特徴との分布整合を強制する。
LabNet による自己教師付き意味指導が、共通の意味表現とハッシュコードを通じて ImgNet と TxtNet を監督する。
生成損失と敵対損失の共同最適化を、-1/1 のビナリゼーションと分類制約とともに行い、B^{v,t,l} を {-1,1}^K に生成する。

実験結果

リサーチクエスチョン

RQ1自己教師付き意味論はどのようにクロスモーダルハッシュの性能を向上させるか？
RQ2敵対学習を用いて複数モダリティの分布を整列させ、共通空間で意味的相関を保持できるか？
RQ3LabNet をモダリティ特有の生成器と統合することが、ベンチマーク全体の検索精度にどのような影響を与えるか？
RQ4大規模データセットにおいて、SSAH は最先端のクロスモーダルハッシュ法とどのように比較されるか？
RQ5このフレームワークは二つを超えるモダリティや見られていないデータ点にも拡張可能か？

主な発見

SSAH は MIRFLICKR-25K, NUS-WIDE, MS COCO において I→T および T→I のタスクで、いくつかのベースラインより高い平均適合率 (MAP) を達成している。
CNN-F および vgg19 特徴量を用いて、SSAH は DCMH などの深層学習手法を含むベースラインを一貫して上回る。
SSAH は浅い手法に対して著しい MAP 増分を示し、DCMH に対しても競合的な gain を示し、自己教師付き敵対フレームワークの有効性を裏付ける。
アブレーション研究は、自己教師付き意味ネットワーク（LabNet）が性能を大幅に向上させ、敵対学習がモダリティ間のギャップを橋渡しするのに役立つことを示している。
SSAH の訓練は DCMH よりも効率的で、報告された実験では約一桁速い訓練時間となっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。