[論文レビュー] Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal Text-Image Retrieval in Remote Sensing
本論文は、デュアルモーダル対照学習を用いた大規模リモートセンサのテキスト画像検索のための教師なしクロスモーダルハッシュフレームワーク DUCH を提案します。双対モーダルコントラスト学習、敵対的一貫性、ビナー化損失を組み合わせ、スケーラブルな RS 検索を実現します。
Due to the availability of large-scale multi-modal data (e.g., satellite images acquired by different sensors, text sentences, etc) archives, the development of cross-modal retrieval systems that can search and retrieve semantically relevant data across different modalities based on a query in any modality has attracted great attention in RS. In this paper, we focus our attention on cross-modal text-image retrieval, where queries from one modality (e.g., text) can be matched to archive entries from another (e.g., image). Most of the existing cross-modal text-image retrieval systems require a high number of labeled training samples and also do not allow fast and memory-efficient retrieval due to their intrinsic characteristics. These issues limit the applicability of the existing cross-modal retrieval systems for large-scale applications in RS. To address this problem, in this paper we introduce a novel deep unsupervised cross-modal contrastive hashing (DUCH) method for RS text-image retrieval. The proposed DUCH is made up of two main modules: 1) feature extraction module (which extracts deep representations of the text-image modalities); and 2) hashing module (which learns to generate cross-modal binary hash codes from the extracted representations). Within the hashing module, we introduce a novel multi-objective loss function including: i) contrastive objectives that enable similarity preservation in both intra- and inter-modal similarities; ii) an adversarial objective that is enforced across two modalities for cross-modal representation consistency; iii) binarization objectives for generating representative hash codes. Experimental results show that the proposed DUCH outperforms state-of-the-art unsupervised cross-modal hashing methods on two multi-modal (image and text) benchmark archives in RS. Our code is publicly available at https://git.tu-berlin.de/rsim/duch.
研究の動機と目的
- リモートセンシングにおけるクロスモーダル検索を動機づけ、ラベル付きデータへの依存を減らす。
- 画像とキャプションを共通のバイナリコードへ写像するスケーラブルなハッシュベースのフレームワークを開発する。
- モダリティ内外のセマンティック類似性を保持するため、モダリティ内およびモダリティ間の対照的目的を組み込む。
- 敵対的目的によりクロスモーダル表現の一貫性を強制し、ビナリゼーション損失を通じて効率的なバイナリ表現を生成する。
- 大規模な RS アーカイブで評価し、テキストと画像モダリティのデータ拡張戦略を分析する。
提案手法
- 特徴抽出モジュールと各モダリティ固有のエンコーダを備えた2モジュールの DUCH フレームワークと、バイナリコードを学習するハッシュ化モジュール。
- モダリティ内外の対照損失を使用し、L_inter をクロスモーダルペア、L_img/L_txt をモダリティ内のポジティブに適用し、温度付きクロスエントロピー目的を用いる。
- 画像とテキストコード間のクロスモーダル表現一貫性を強制する識別器を伴う敵対的目的。
- 量子化損失とビットバランス損失を含むビナリゼーションの目的が、離散的でバランスの取れたバイナリ表現へコードを導く。
- 最終的なバイナリコードは、両モダリティから得られる連続コードの平均に対して符号化演算を行うことにより更新される。
- 全体の目的関数は加重和で表される: L = L_C + alpha L_A + beta L_Q + gamma L_BB。
実験結果
リサーチクエスチョン
- RQ1ラベルなしデータでも、教示なしクロスモーダル対照型ハッシュはリモートセンシングにおけるテキスト画像検索で競争力のある性能を達成できるか。
- RQ2モダリティ内外の対照損失は、RS の画像とキャプション間の埋め込み品質にどのように影響するか。
- RQ3敵対的目的はクロスモーダルコードの一貫性と検索精度にどのような影響を与えるか。
- RQ4ビナリゼーション損失は、スケーラブルな RS 検索のためのバイナリハッシュコードの品質と利用にどのように影響するか。
- RQ5自己教師付きハッシュフレームワークにおける RS 画像とキャプションデータの効果的な拡張戦略は何か。
主な発見
- DUCH は2つの RS マルチモーダルアーカイブ(RSICD と UCMerced)で最先端の教師なしクロスモーダルハッシュ法を上回る。
- モダリティ内外の対照損失の組み合わせは、クロスモーダル検索の表現学習を改善する。
- 敵対的目的は画像コードとテキストコード間のクロスモーダル表現の一貫性を強制する。
- ビナリゼーション損失(量子化とビットバランス)は、代表的でバランスの取れたバイナリハッシュコードの生成に寄与する。
- 規則ベースの拡張とバックトランスレーションを含むテキスト拡張と画像拡張が、検索性能にプラスの影響を与える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。