[論文レビュー] Learning Visually-Grounded Semantics from Contrastive Adversarial Samples
本稿では、語彙ネットと文法的ルールを用いて、意味的に矛盾するが構造的に類似したフレーズをもつ合成キャプション(対照的悪意のあるサンプル)を用いて、視覚的に根拠付けられたテキスト埋め込みを向上させるVSE-Cという手法を提案する。これらのサンプルにインラインペアのハードネガティブマイニングを組み合わせることで、画像対テキスト検索および語彙対概念検索におけるゼロショット転送性能が顕著に向上し、複数のベンチマークでVSE++およびGloVeを上回る性能を達成する。
We study the problem of grounding distributional representations of texts on the visual domain, namely visual-semantic embeddings (VSE for short). Begin with an insightful adversarial attack on VSE embeddings, we show the limitation of current frameworks and image-text datasets (e.g., MS-COCO) both quantitatively and qualitatively. The large gap between the number of possible constitutions of real-world semantics and the size of parallel data, to a large extent, restricts the model to establish the link between textual semantics and visual concepts. We alleviate this problem by augmenting the MS-COCO image captioning datasets with textual contrastive adversarial samples. These samples are synthesized using linguistic rules and the WordNet knowledge base. The construction procedure is both syntax- and semantics-aware. The samples enforce the model to ground learned embeddings to concrete concepts within the image. This simple but powerful technique brings a noticeable improvement over the baselines on a diverse set of downstream tasks, in addition to defending known-type adversarial attacks. We release the codes at https://github.com/ExplorerFreda/VSE-C.
研究の動機と目的
- 現在の視覚的意味的データセット(例:MS-COCO)が、現実世界の意味的組み合わせのカバー不足により疎らで偏りがあるという限界を是正すること。
- 既存のVSEモデルが、構文的に類似しているが意味的に矛盾するキャプションを区別できない理由を解明すること、特に文法的構造が似通ったテキスト的摂動に対して脆弱である理由を調査すること。
- 視覚的空間における語の埋め込みの位置決めを向上させるために、意味的に対照的だが構造的に類似したサンプルを導入し、テキストと視覚的コンセプトの間で細分化された整合性を強制すること。
- 画像対テキスト検索や穴埋め語の予測といった下流タスクにおける学習済み埋め込みの転送性を評価すること。
- 文法的ルールと知識ベース(例:WordNet)を統合した汎用的なデータ拡張フレームワークを構築し、画像・テキストデータセットにおけるデータの疎らさとバイアスを軽減すること。
提案手法
- 文法的ルールとWordNetを用いて、意味的に反対だが構造的に類似したキャプション(例:'on' を 'under' に変更、名詞を同義語に置換)を生成する対照的悪意のあるサンプルを合成する。
- 3種類の悪意のあるサンプルを生成する:名詞レベル(名詞を同義語に置換)、数詞レベル(物体の数を変更)、関係レベル(空間の前置詞をシフト)。
- 訓練中に最も困難な悪意のあるサンプルを選択するインラインペアのハードネガティブマイニング戦略を導入し、モデルのロバスト性を向上させる。
- 元のMS-COCOキャプションと生成された悪意のあるサンプルの組み合わせを用いて、コサイン類似度損失を用いて統合埋め込み最適化を行うVSEスタイルのモデルを訓練する。
- Bidirectional GRUとResNet-152からの画像特徴を用いて、マスキングされた語を予測する穴埋めモデルを構築し、最終的な予測は2層のMLPで行う。
- 実際のキャプションと悪意のあるキャプションを、特定の視覚的コンセプト(例:物体、関係)のレベルで区別できるよう、共同学習目的関数を採用する。
実験結果
リサーチクエスチョン
- RQ1悪意のあるキャプション摂動は、現在のVSEモデルの弱みをどのように露呈するか、特に意味的に矛盾するが構文的に類似したキャプションの視覚的コンセプトへの意味的位置決めにどのような課題をもたらすか?
- RQ2意味的に対照的だが構文的に類似したキャプションを追加することで、視覚的意味的埋め込みのロバスト性と一般化性能がどの程度向上するか?
- RQ3意味的に対照的だが構文的に類似したキャプションを学習させることで、モデルが語レベルの意味を特定の視覚的エンティティに正確に位置づける能力が向上するか?
- RQ4VSE-Cの性能は、画像対テキスト検索や語彙対概念検索といった多様な下流タスクにどの程度転送されるか?
- RQ5文法的ルールとWordNetに基づく提案されたデータ拡張戦略は、画像・テキストデータセットにおけるデータの疎らさとバイアスを効果的に軽減できるか?
主な発見
- VSE-Cは画像対物体検索で最高の性能を達成し、名詞穴埋めではR@1が27.3%、R@10が62.9%を記録。VSE++(25.0%と61.7%)およびGloVe(23.2%と58.8%)を上回る。
- 関係レベルの悪意のあるサンプルのみを用いても、前置詞穴埋めではR@1が35.2%、R@10が85.2%を達成。全タイプの悪意のあるサンプルを用いたモデルと同等の性能を示す。
- モデルは強力なゼロショット転送性を示し、名詞と前置詞の組み合わせ穴埋めではR@1が30.0%、R@10が70.98%を達成。VSE++(28.4%と68.1%)を上回る。
- VSE-Cは既知の悪意のある攻撃に対してもロバストであり、意味的に矛盾するキャプションが提示されても、検索タスクで高い信頼性を維持する。
- インラインペアのハードネガティブマイニング戦略は、訓練中に最も困難なネガティブ例に焦点を当てることで、モデルの識別性能を顕著に向上させる。
- 結果から、人間の知識と知識ベース(WordNet経由)を導入することで、視覚的意味的学習における言語の疎らさと非連続性が顕著に軽減されることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。