Skip to main content
QUICK REVIEW

[論文レビュー] Learning Robust Visual-Semantic Embeddings

Yao-Hung Hubert Tsai, Liang-Kang Huang|arXiv (Cornell University)|Mar 17, 2017
Domain Adaptation and Few-Shot Learning参考文献 1被引用数 21
ひとこと要約

本稿では、自己符号化器と最大平均差分(MMD)を用いた教師あり対照的学習と教師なし表現学習を統合することで、視覚的・意味的埋め込みを一括して学習する新しいエンドツーエンドフレームワークReViSEを提案する。この手法は、Animals with AttributesおよびCUB-200-2011データセットにおいて、ゼロショットおよびフェイントショットの画像認識および検索で最先端の性能を達成し、推論設定が伝達的である場合にAwAで93.4%、CUBで93.5%のトップ1精度を達成した。

ABSTRACT

Many of the existing methods for learning joint embedding of images and text use only supervised information from paired images and its textual attributes. Taking advantage of the recent success of unsupervised learning in deep neural networks, we propose an end-to-end learning framework that is able to extract more robust multi-modal representations across domains. The proposed method combines representation learning models (i.e., auto-encoders) together with cross-domain learning criteria (i.e., Maximum Mean Discrepancy loss) to learn joint embeddings for semantic and visual features. A novel technique of unsupervised-data adaptation inference is introduced to construct more comprehensive embeddings for both labeled and unlabeled data. We evaluate our method on Animals with Attributes and Caltech-UCSD Birds 200-2011 dataset with a wide range of applications, including zero and few-shot image recognition and retrieval, from inductive to transductive settings. Empirically, we show that our framework improves over the current state of the art on many of the considered tasks.

研究の動機と目的

  • 異なるモodal間でより強固な統合視覚的・意味的埋め込みを学習することにより、ゼロショットおよびフェイントショットの画像認識および検索を向上させること。
  • 従来の手法が教師ありペairedデータに依存するという限界を克服し、教師なし表現学習を用いて未ラベルデータを統合すること。
  • 最大平均差分(MMD)損失を用いた分布の整合性を強制することで、視覚的および言語的埋め込み間のドメインシフトを低減すること。
  • ラベル付きおよび未ラベル付きの両方の例に対して埋め込み品質を向上させる、新しい教師なしデータ適応推論技術を通じて、モデルの汎化性能と頑健性を向上させること。

提案手法

  • フレームワークは、視覚的および言語的特徴に対して別々の自己符号化器を採用し、再構成損失を用いてラベル付きおよび未ラベル付きデータから意味のある表現を学習する。
  • 視覚的および言語的コード表現間の分布的差違を最小化するためのクロスモーダルMMD損失を導入し、統合埋め込み空間におけるより良い整合性を促進する。
  • テスト段階で、未ラベル例の予測を精緻化するための、新しい教師なしデータ適応推論技術を適用し、汎化性能と性能を向上させる。
  • 全体の目的関数は、ペアド画像・テキストの整合性を目的とする教師あり対照的損失と、ドメイン整合性を目的とする教師なしMMD損失を組み合わせており、エンドツーエンドで同時に最適化される。
  • ハイパーパramータβとλは、検証分割における交差検証により調整され、教師ありおよび教師なし損失の重み付き組み合わせを用いてモデルを訓練する。
  • 本手法はインダクティブおよび伝達的設定の両方で評価され、アブレーションスタディにより、特にMMDと教師なし適応ステップの各コンポーネントの寄与が確認された。

実験結果

リサーチクエスチョン

  • RQ1教師ありおよび教師なし表現学習を統合することで、ゼロショットおよびフェイントショット学習設定における視覚的・意味的埋め込みの頑健性が向上するか?
  • RQ2MMDに基づく分布整合性は、視覚的および言語的特徴空間間のドメインシフトをどれほど低減できるか?
  • RQ3提案された教師なしデータ適応推論技術は、未ラベルテスト例における性能を顕著に向上させるか?
  • RQ4教師ありおよび教師なし損失コンポーネントの最適なバランスは何か?
  • RQ5異なるデータセットおよび設定において、提案されたReViSEフレームワークは最先端の手法と比較して、正確性および汎化性能で優れているか?

主な発見

  • 伝達的ゼロショット学習設定下で、Animals with Attributes(AwA)データセットでは93.4%、CUB-200-2011(CUB)データセットでは93.5%のトップ1精度を達成し、先行する最先端手法を上回った。
  • アブレーションスタディにより、MMD損失が視覚的および言語的コード間の分布的差違を顕著に低減することが確認され、MMDを含まないバージョン(ReViSE†)と比較して、ReViSEモデルは一貫して低いMMD距離を示した。
  • 提案された教師なしデータ適応推論技術により、性能が著しく向上し、このコンポーネントを含まないベースラインと比較して、精度が10%以上向上した。
  • α(教師なし損失の重み)が1.0を超えると、性能が頭打ちになることが示され、教師なし損失が教師あり監視を上回るべきではないことが示唆された。
  • CUBデータセットにおいて人間がアノテートした属性を用いた場合、伝達的設定で65.4%のトップ1精度を達成し、以前の最良手法(SMS ESZSLで61.6%)を上回った。
  • CUBにおけるゼロショット検索の精度-再現率曲線では、ReViSEが全再現率レベルで優れた検索性能を達成しており、クロスモーダル検索における頑健性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。