QUICK REVIEW

[論文レビュー] Deep Supervised Discrete Hashing

Qi Li, Zhenan Sun|arXiv (Cornell University)|May 31, 2017

Advanced Image and Video Retrieval Techniques参考文献 25被引用数 163

ひとこと要約

ペアワイズの意味ラベルと分類情報の両方を活用して、単一ストリームで直接バイナリコードを学習する深層ハッシュ法。類似性を保持しつつ分類に最適化するため、交互最適化で最適化する。

ABSTRACT

With the rapid growth of image and video data on the web, hashing has been extensively studied for image or video search in recent years. Benefit from recent advances in deep learning, deep hashing methods have achieved promising results for image retrieval. However, there are some limitations of previous deep hashing methods (e.g., the semantic information is not fully exploited). In this paper, we develop a deep supervised discrete hashing algorithm based on the assumption that the learned binary codes should be ideal for classification. Both the pairwise label information and the classification information are used to learn the hash codes within one stream framework. We constrain the outputs of the last layer to be binary codes directly, which is rarely investigated in deep hashing algorithm. Because of the discrete nature of hash codes, an alternating minimization method is used to optimize the objective function. Experimental results have shown that our method outperforms current state-of-the-art methods on benchmark datasets.

研究の動機と目的

セマンティックなペアワイズおよびラベル情報を用いて、深層フレームワーク内で直接バイナリハッシュコードを学習する動機づけ。
ワンストリーム CNN ベースのハッシュモデルを開発することで、分類を統合してコード品質を向上させる。
最適化中のハッシュコードの離散性を維持して、量子化誤差を低減する。
CIFAR-10 および NUS-WIDE データセットで最先端の検索性能を示す。

提案手法

ハッシュ関数と表現を学習する基盤アーキテクチャとしてCNN-Fを用いる。
類似性のペアワイズ尤度と、コードとラベルを結ぶ分類子ベースの項を組み合わせた損失を組み立てる。
最後の層の出力をバイナリコードに制約し、離散最適化を可能にする補助変数を導入する。
離散的サイクリック座標降下法による離散最適化を通じて、最後の層の出力、分類器ウェイト、およびバイナリコードを交互に更新する。
コードの類似性保持と分類適合性の両方を強制する結合目的関数を組み込む。

実験結果

リサーチクエスチョン

RQ1ワンストリームCNNフレームワークで学習されたバイナリハッシュコードは、同時に意味的な類似性を保持し、分類の最適性を満たすことができるか？
RQ2訓練中のハッシュコードの離散性を強制することは、連続的リラクゼーションと比較して検索性能を改善するか？
RQ3ラベル情報をハッシュ化に活用する点で、統一型のワンストリーム手法はツーストリーム法とどのように比較されるか？
RQ4表現、ハッシュ、および線形分類器を共同学習することが、標準的な画像検索ベンチマークに与える影響は何か？

主な発見

提案手法は、複数のビット長にわたり、CIFAR-10とNUS-WIDEで最先端の深層ハッシュ法を一貫して上回る。
1ストリーム内でペアワイズ類似性と分類情報の両方を活用すると、A/B バリアントおよび2ストリーム手法に対して大幅な改善をもたらす。
最後の層をバイナリコードに直接制約し、離散最適化を用いることで量子化誤差を低減し、検索精度を向上させる。
さまざまな実験設定の下でMAPスコアがより高く、異なる学習/テスト分割に対する頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。