[論文レビュー] CM-GANs: Cross-modal Generative Adversarial Networks for Common Representation Learning
CM-GANs は、重み共有オートエンコーダーとデュアル識別器を備えたクロスモーダル GAN を用いて識別的なクロスモーダル共通表現を学習し、複数データセットで最先端のクロスモーダル検索を実現する。
It is known that the inconsistent distribution and representation of different modalities, such as image and text, cause the heterogeneity gap that makes it challenging to correlate such heterogeneous data. Generative adversarial networks (GANs) have shown its strong ability of modeling data distribution and learning discriminative representation, existing GANs-based works mainly focus on generative problem to generate new data. We have different goal, aim to correlate heterogeneous data, by utilizing the power of GANs to model cross-modal joint distribution. Thus, we propose Cross-modal GANs to learn discriminative common representation for bridging heterogeneity gap. The main contributions are: (1) Cross-modal GANs architecture is proposed to model joint distribution over data of different modalities. The inter-modality and intra-modality correlation can be explored simultaneously in generative and discriminative models. Both of them beat each other to promote cross-modal correlation learning. (2) Cross-modal convolutional autoencoders with weight-sharing constraint are proposed to form generative model. They can not only exploit cross-modal correlation for learning common representation, but also preserve reconstruction information for capturing semantic consistency within each modality. (3) Cross-modal adversarial mechanism is proposed, which utilizes two kinds of discriminative models to simultaneously conduct intra-modality and inter-modality discrimination. They can mutually boost to make common representation more discriminative by adversarial training process. To the best of our knowledge, our proposed CM-GANs approach is the first to utilize GANs to perform cross-modal common representation learning. Experiments are conducted to verify the performance of our proposed approach on cross-modal retrieval paradigm, compared with 10 methods on 3 cross-modal datasets.
研究の動機と目的
- 画像とテキストのモダリティ間の異質性ギャップを埋め、クロスモーダル検索を促進する動機づけ。
- 結合分布をモデル化することで識別的な共通表現を学ぶクロスモーダル GAN フレームワークを提案する。
- 内部モダリティの意味的再構成を保持しつつ、敵対的学習を通じてモダリティ間の相関を強化する。
- 重み共有のクロスモーダルオートエンコーダを導入して共有表現を学習し、モダリティ特有の情報を維持する。
提案手法
- 共有最終層ウェイトを持つクロスモーダル畳み込みオートエンコーダ (G_I および G_T) を導入し、共通表現 (s_p^i, s_p^t) を学習し、表現 (r_p^i, r_p^t) を再構成する。
- オリジナルと再構成を識別する intra-modality 識別器 (D_I, D_T) と、クロスモーダル共通表現を対象とする inter-modality 識別器 (D_Ci, D_Ct) の2つの並列 GAN を使用する。
- 2つの敵対損失を定式化する:内部モダリティ再構成のための L_GAN1 と、モダリティ間相関のための L_GAN2 を最小最大目的で結合する。
- 互いに学習を高め合うように、識別モデルと生成モデルの更新を交互に行うクロスモーダル敵対的手順で訓練する。
- エンコーダの最終層の重み共有とソフトマックス制約を活用してモダリティ間の意味的整合性を強制する。
実験結果
リサーチクエスチョン
- RQ1GAN ベースのアーキテクチャは、異なるモダリティ(画像とテキスト)からの異種データを相関づける識別的な共通表現を学習できるか。
- RQ2 intra-および inter-modality 識別器を用いたクロスモーダル adversarial 学習はクロスモーダル検索性能を向上させるか。
- RQ3重み共有のクロスモーダルオートエンコーダは、モダリティ内の意味論を効果的に保持しつつクロスモーダル相関を可能にするか。
主な発見
- CM-GANs は、3つのデータセットにわたり、10 件の最先端クロスモーダル検索手法と比較して最高の検索精度を達成した。
- Wikipedia、Pascal Sentence、および著者らの XMediaNet データセットでのクロスモーダル検索タスクの有効性を実証。
- 重み共有を備えたクロスモーダル畳み込みオートエンコーダが、各モダリティ内の意味的一貫性を維持しつつクロスモーダル相関を捉えることを示す。
- 提案されたクロスモーダル敵対機構が識別的共通表現学習を強化する手段として有効であることを検証。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。