QUICK REVIEW

[論文レビュー] A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

Linjie Li, Zhe Gan|arXiv (Cornell University)|Dec 15, 2020

Multimodal Machine Learning Applications参考文献 84被引用数 27

ひとこと要約

この論文では、埋め込み空間でマルチモーダルな adversarial ノイズを生成することによって、ビジョンアンドランゲージ（V+L）事前学習モデルの頑健性を向上させる、タスクに依存しない効率的な adversarial 訓練手法Mangoを提示する。9つの頑健性ベンチマークのうち7つで最先端の性能を達成し、言語的変異、論理的推論、視覚的操作、分布シフトに対する一般化性能を顕著に向上させた。

ABSTRACT

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.

研究の動機と目的

標準のベンチマークでは捉えきれない多様な障害モード（失敗モード）に対して、ビジョンアンドランゲージ事前学習モデルの頑健性を体系的に評価すること。
標準的なファインチューニングや adversarial 訓練が、挑戦的で分布シフトが生じた、または摂動を加えた入力においてモデルの頑健性を向上させられるかを調査すること。
タスク固有のデータやアーキテクチャに依存せずに、普遍的に頑健性を向上させる、汎用的で効率的かつタスクに依存しない手法を開発すること。
言語的変異、論理的推論、視覚的コンテンツの操作、回答の分布シフトをカバーする、ビジョンアンドランゲージ分野におけるモデルの頑健性を評価する包括的なベンチマークスイートを確立すること。

提案手法

事前学習モデルをだますために、マルチモーダルな埋め込み（画像およびテキスト）を摂動する能力を学ぶ、ニューラルネットワークベースの adversarial ノイズ生成器であるMangoを提案する。
投影勾配降下法（PGD）を用いて、バックボーンモデルと同時にエンドツーエンドでノイズ生成器を訓練し、埋め込み空間で adversarial な例を生成する。
ノイズ注入時に画像領域のランダムマスキングおよびテキスト入力の[マスク]トークンを導入し、adversarial な例の多様性を促進する。
2ストリーム（LXMERT）およびクロスアテンション（UNITER）アーキテクチャの両方に対して、adversarial 訓練フレームワークを適用し、モデルタイプに跨る一般化を示す。
反復的でない、軽量なノイズ生成器を反復的PGDの代わりに採用することで、訓練コストを削減しながらも頑健性の向上を維持する。
標準的なV+Lタスク（例：NLVR2, RefCOCO）にこの手法を適用し、タスクに依存しない適用可能性および一般化性能を検証する。

実験結果

リサーチクエスチョン

RQ1言語的変異、視覚的操作、または分布シフトを伴うベンチマークで評価された場合、現在のビジョンアンドランゲージ事前学習モデル（例：UNITER, LXMERT）はどの程度頑健であるか？
RQ2標準的なファインチューニングやPGDベースの adversarial 訓練は、多様な頑健性タイプにわたり頑健性を向上させられるか、それとも特定の障害モードに限局的か？
RQ3Mangoのような汎用的でタスクに依存しない adversarial 訓練手法は、タスク固有の適応なしに、複数の頑健性ベンチマークで普遍的に頑健性を向上させられるか？
RQ4（例：ランダムマスキング、モダリティ固有のノイズなど）どの要素が adversarial な例の多様性と一般化を向上させるのに最も効果的か？
RQ5学習済みノイズ生成器を用いた adversarial 訓練は、標準的なPGDベースの手法に比べ、頑健性および効率性の面でどの程度優れているか？

主な発見

評価されたベンチマークにおいて、事前学習V+Lモデルの標準的なファインチューニングは、多くのタスク固有の最先端手法よりも優れた頑健性を示している。
Mangoは9つの頑健性ベンチマークのうち7つで最先端の性能を達成し、PGDベースの adversarial 訓練を含む既存の手法を顕著に上回った。
VQA-LOL ComposeおよびSupplementでは、ベースラインのUNITERモデルに比べてMangoが10ポイント以上の精度向上を達成し、論理的推論タスクにおける顕著な向上を示した。
ノイズ注入時に画像領域および[マスク]トークンのランダムマスキングを実施することで、より多様な adversarial 埋め込みが得られ、特に分布外の質問長分布を伴うベンチマークで性能向上が顕著に見られた。
単一モダリティ（テキストまたは画像）への adversarial ノイズ注入でもすでに顕著な向上が得られ、両方のモダリティへの同時注入は僅かな改善に留まり、モダリティ固有の頑健性が十分であることが示唆された。
この手法は他のアーキテクチャにも効果的に一般化され、LXMERTに対しても、アーキテクチャの変更なしに、評価されたすべてのベンチマークで頑健性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。