Skip to main content
QUICK REVIEW

[論文レビュー] Binary Generative Adversarial Networks for Image Retrieval

Jingkuan Song|arXiv (Cornell University)|Aug 8, 2017
Advanced Image and Video Retrieval Techniques被引用数 84
ひとこと要約

無監督の二値ハッシュ法(BGAN)を、継続ベースの符号化活性化を用いた二値制約付きGANで学習させ、画像検索のための二値コードを学習する。CIFAR-10、NUS-WIDE、Flickrで高いmAPを達成。

ABSTRACT

The most striking successes in image retrieval using deep hashing have mostly involved discriminative models, which require labels. In this paper, we use binary generative adversarial networks (BGAN) to embed images to binary codes in an unsupervised way. By restricting the input noise variable of generative adversarial networks (GAN) to be binary and conditioned on the features of each input image, BGAN can simultaneously learn a binary representation per image, and generate an image plausibly similar to the original one. In the proposed framework, we address two main problems: 1) how to directly generate binary codes without relaxation? 2) how to equip the binary representation with the ability of accurate image retrieval? We resolve these problems by proposing new sign-activation strategy and a loss function steering the learning process, which consists of new models for adversarial loss, a content loss, and a neighborhood structure loss. Experimental results on standard datasets (CIFAR-10, NUSWIDE, and Flickr) demonstrate that our BGAN significantly outperforms existing hashing methods by up to 107\% in terms of~mAP (See Table tab.res.map.comp) Our anonymous code is available at: https://github.com/htconquer/BGAN.

研究の動機と目的

  • ラベルなしでスケーラブルな画像検索を実現するための無監督の二値ハッシュの動機付け。
  • BGANを提案し、妥当な画像を生成しつつ直接 L ビットの二値コードを学習する。
  • 近傍構造、内容、敵対的目的を組み合わせた損失を設計し、検索のための二値コードを最適化する。
  • 直接の二値最適化が緩和されたハッシュ法より性能を改善することを示す。

提案手法

  • エンコーダ、ハッシュ層、生成器、識別器の4部構成BGANアーキテクチャを導入する。
  • 無監督で二値コード学習を導くためにK最近傍(KNN)ベースの近傍構造を使用する。
  • 緩和なしで直接二値コードを可能にする継続的近似(app)を用いた符号活性化を用いる。
  • 近傍構造損失、内容(知覚)損失、敵対的損失の重み付き和として損失を定義する。
  • SGDでベータを段階的に進行させて符号関数を徐々に近似し、sgn(z)へ収束させる訓練を行う。

実験結果

リサーチクエスチョン

  • RQ1RQ1: BGANの各コンポーネントは検索性能にどう影響するか?
  • RQ2RQ2: 直接の二値最適化(緩和なし)はハッシュ性能を向上させるか?
  • RQ3RQ3: BGANは最先端のハッシュ法を有意に超えるか?
  • RQ4RQ4: 大規模検索におけるBGANの効率性と実用性はどの程度か?

主な発見

  • BGANは標準データセットで既存の無監督ハッシュ法を上回る。
  • 3つのロス成分(近傍、内容、敵対)をすべて組み込むと最良の検索性能を発揮する。
  • 継続ベースの符号活性化による直接的な二値最適化は、緩和ベースや2段階アプローチより改善をもたらす。
  • このアーキテクチャはCIFAR-10、NUS-WIDE、Flickrで、複数のベースラインと比較してビット長全体で強いmAP向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。