Skip to main content
QUICK REVIEW

[論文レビュー] VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

Fartash Faghri, David J. Fleet|arXiv (Cornell University)|Jul 18, 2017
Multimodal Machine Learning Applications参考文献 29被引用数 579
ひとこと要約

VSE++は hard negative mining に触発された max-margin hinge loss (MH) を導入し、視覚-意味埋め込み訓練を行う。MS-COCOと Flickr30K の画像-キャプション検索で、大きな利得を得る。特に強力な画像エンコーダとデータ拡張を用いる場合に顕著。

ABSTRACT

We present a new technique for learning visual-semantic embeddings for cross-modal retrieval. Inspired by hard negative mining, the use of hard negatives in structured prediction, and ranking loss functions, we introduce a simple change to common loss functions used for multi-modal embeddings. That, combined with fine-tuning and use of augmented data, yields significant gains in retrieval performance. We showcase our approach, VSE++, on MS-COCO and Flickr30K datasets, using ablation studies and comparisons with existing methods. On MS-COCO our approach outperforms state-of-the-art methods by 8.8% in caption retrieval and 11.3% in image retrieval (at R@1).

研究の動機と目的

  • -cross-modal retrieval (キャプション ↔ 画像) のための頑健な視覚-意味埋め込みの学習を動機づける。
  • 共同埋め込み損失内でのハードネガティブサンプリングの効果を調査する。
  • 新しい損失 (MH) とデータ拡張/ファインチューニングによって検索性能を向上させる。
  • より強力な画像エンコーダ(例:ResNet)とデータセット拡張での利得を示す。
  • MS-COCOと Flickr30K での最新手法とのアブレーションと比較を提供する。

提案手法

  • 画像とキャプションの投影を共有空間へマッピングし、両方の埋め込みをL2正規化する共通埋め込みを定義する。
  • 標準的なトリプレット/ハイパープレーンヒンジ損失を、ミニバッチ内で最も難易度の高いネガティブに焦点を当てる Max of Hinges (MH) 損失に置換する:ell(i,c)=max_c' [alpha+s(i,c')-s(i,c)]+max_i' [alpha+s(i',c)-s(i,c)]。
  • 補足的なマイニングコストなしで各ミニバッチ内のネガティブを計算し、ポジティブ近傍の厳しいネガティブを強調する。
  • 性能改善のために画像エンコーダをファインチューニングしデータを拡張する(RC, 10C, rV など)。
  • VGG19とResNetエンコーダ、GRUベースのキャプションエンコーダ、ジョイント次元 D=1024 を用いた実験。
  • MS-COCOとFlickr30K におけるキャプションおよび画像検索でRecall at K (R@K) を評価する。

実験結果

リサーチクエスチョン

  • RQ1MH 損失を用いたハードネガティブの組み込みは、ベースライン SH 損失と比較して R@1/5/10 および中央値順位を改善するか。
  • RQ2データ拡張と画像エンコーダの改善(ResNet、ファインチューニングなど)は MH 損失と相互に作用して性能を向上させるか。
  • RQ3MH 損失はミニバッチ内のハードネガティブによるバッチサイズとラベルノイズに対して堅牢か。
  • RQ4MH 損失は VSE 以外の埋め込み手法(例:Order++)にも適用可能か。
  • RQ5訓練データ量とデータ拡張が VSE++ の性能に及ぼす影響は何か。

主な発見

  • MS-COCO で、ResNet152 とファインチューニングを用いた VSE++ はキャプション検索の R@1 が 64.6%、画像検索の R@1 が 52.0%(1K テスト画像)を達成(Table 1/1.11)。
  • VSE++ は一貫して VSE0 および従来の最先端手法を上回り、MS-COCO での最高結果に対してキャプションの R@1 で絶対的な 8.8%、画像の R@1 で 11.3% の利得を得る。
  • ミニバッチ内の厳しいネガティブを用いる MH 損失は、単により強力な画像エンコーダ(例:ResNet)やデータ拡張(例:RC/rV)を用いるだけよりも大きな利得をもたらす。
  • 改良はデータセット(MS-COCO と Flickr30K)および訓練バリアント(1C、RC、rV;FT)全体で持続する。
  • MH 損失は他の埋め込み手法(Order++)にも拡張効果があり、MS-COCO で顕著な R@1 の利得を達成する。
  • MH 損失は訓練初期に暖機期間を要するが、数エポック後には SH を上回る。カリキュラム戦略は提案されるが、MH 単独でも強い性能を発揮。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。