QUICK REVIEW

[論文レビュー] Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Zhe Gan, Yen-Chun Chen|arXiv (Cornell University)|Jun 11, 2020

Multimodal Machine Learning Applications参考文献 89被引用数 287

ひとこと要約

Villa は、画像とテキストの両モダリティで埋め込みを摂動させることにより、 vision-and-language モデルの大規模な対向訓練を導入し、二段階の枠組み（対向事前学習と対向ファインチューニング）で、複数の V+L タスクにおいて最先端を達成する。

ABSTRACT

We present VILLA, the first known effort on large-scale adversarial training for vision-and-language (V+L) representation learning. VILLA consists of two training stages: (i) task-agnostic adversarial pre-training; followed by (ii) task-specific adversarial finetuning. Instead of adding adversarial perturbations on image pixels and textual tokens, we propose to perform adversarial training in the embedding space of each modality. To enable large-scale training, we adopt the "free" adversarial training strategy, and combine it with KL-divergence-based regularization to promote higher invariance in the embedding space. We apply VILLA to current best-performing V+L models, and achieve new state of the art on a wide range of tasks, including Visual Question Answering, Visual Commonsense Reasoning, Image-Text Retrieval, Referring Expression Comprehension, Visual Entailment, and NLVR2.

研究の動機と目的

堅牢なマルチモーダル事前学習を動機づけ、下流の V+L タスクでの一般化を向上させる。
スケーラビリティと効果のために、ピクセル/トークン空間ではなく埋め込み空間で対向訓練を提案する。
複数の V+L アーキテクチャにわたる二段階の対向訓練（事前学習とファインチューニング）を実証する。
視覚と言語のベンチマークの広範なセットで経験的な向上を示す。

提案手法

画像モダリティとテキストモダリティの埋め込み空間に対する対向摂動を実行し、画像領域特徴と語彙埋め込みに摂動を加える。
タスク非依存の対向事前学習に続き、タスク固有の対向ファインチューニングを行うという二段階トレーニングを採用する。
大規模な学習を可能にするため、複数回の PGD ステップを通じて勾配を蓄積する「free」対向訓練戦略を採用する。
KL 発散に基づく項で正則化し、信頼度の滑らかさと摂動に対する防御を促進する。
標準損失、対向訓練損失、KL に基づく正則化を組み合わせた複合目的関数を最適化する（式の定式化のように）。
MLM および ITM の事前学習タスクと下流のファインチューニング（例：VQA、VCR）の両方で対向訓練を適用する。

実験結果

リサーチクエスチョン

RQ1埋め込み空間の対向摂動は、多様なタスクにわたって vision-and-language モデルの一般化を改善できるか。
RQ2対向事前学習と対向ファインチューニングは、V+L モデルの標準訓練よりも付加的な利得をもたらすか。
RQ3大規模な V+L 訓練において、画像特徴を摂動するかテキスト埋め込みを摂動する（あるいは両方）方が有益か。
RQ4「free」対向訓練の枠組みは、スケール時の訓練効率と性能にどのような影響を与えるか。

主な発見

Villa は UNITER（ベースおよびラージ）に適用した場合、六つの V+L タスクで最先端を一貫して改善し、LXMERT をファインチューニング段階で適用した場合にも改善をもたらす。
Villa-base は UNITER-base に対して Q→AR で +0.76、VCR で +2.4 の改善をもたらす一方、Villa-large は VQA と VCR でより大きな利得を示し（例：VCR Q→AR +2.9）、より大きな改善を達成する。
対向事前学習と対向ファインチューニングはそれぞれ性能を高め、両方を組み合わせると最大の向上を得られる。
画像特徴のみを摂動する、またはテキスト埋め込みのみを摂動するのどちらも大幅な改善をもたらし、画像摂動は複数のタスクで顕著な利得を提供する。
Villa は Ablation で FreeLB を上回り、マルチモーダル整合性（視覚的共参照や関係性への注意を高めるなど）のより良い探査信号を得る。
Villa を LXMERT（ファインチューニングのみ）に適用すると、VQA、GQA、NLVR2 の平均で約 +0.88 の利得を生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。