QUICK REVIEW

[论文解读] A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

Linjie Li, Zhe Gan|arXiv (Cornell University)|Dec 15, 2020

Multimodal Machine Learning Applications参考文献 84被引用 27

一句话总结

本文提出Mango，一种与任务无关、高效的对抗训练方法，通过在嵌入空间中学习生成多模态对抗噪声，提升视觉-语言预训练模型的鲁棒性。该方法在9项鲁棒性基准中的7项上达到最先进性能，显著提升了模型在语言变化、逻辑推理、视觉操作和分布偏移等方面的泛化能力。

ABSTRACT

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.

研究动机与目标

系统评估视觉-语言预训练模型在标准基准未涵盖的各类故障模式下的鲁棒性。
探究标准微调或对抗训练是否能提升模型在具有挑战性、分布偏移或扰动输入下的鲁棒性。
开发一种通用、高效且与任务无关的方法，无需依赖特定任务的数据或架构，普遍增强模型鲁棒性。
建立一个全面的视觉-语言模型鲁棒性评估基准套件，涵盖语言变化、逻辑推理、视觉内容操作和答案分布偏移。

提出的方法

提出Mango，一种基于神经网络的对抗噪声生成器，可学习扰动多模态嵌入（图像与文本）以欺骗预训练模型。
使用投影梯度下降（PGD）端到端联合训练噪声生成器与主干模型，以在嵌入空间中生成对抗样本。
在噪声注入过程中对图像区域和文本中的[MASK]标记实施随机掩码，以促进对抗样本的多样性。
将对抗训练框架应用于双流（LXMERT）和交叉注意力（UNITER）架构，证明其在不同模型类型上的泛化能力。
采用轻量级、非迭代的噪声生成器，而非迭代式PGD，降低训练成本，同时保持鲁棒性提升。
将该方法应用于标准视觉-语言任务（如NLVR2、RefCOCO），验证其与任务无关的适用性与泛化能力。

实验结果

研究问题

RQ1当在包含语言变化、视觉操作或分布偏移的基准上评估时，当前视觉-语言预训练模型（如UNITER、LXMERT）的鲁棒性如何？
RQ2标准微调或基于PGD的对抗训练是否能普遍提升多种鲁棒性类型下的模型鲁棒性，还是仅在特定故障模式下有效？
RQ3像Mango这样的通用、与任务无关的对抗训练方法，是否能无需特定任务适配，普遍提升多个鲁棒性基准的性能？
RQ4哪些组件（如随机掩码、模态特定噪声）最有效地提升对抗样本的多样性和泛化能力？
RQ5与标准PGD方法相比，使用学习型噪声生成器的对抗训练在鲁棒性和效率方面优势有多大？

主要发现

对视觉-语言预训练模型进行标准微调，已在所评估的基准上展现出优于许多特定任务最先进方法的鲁棒性。
Mango在9项鲁棒性基准中的7项上达到最先进性能，显著优于现有方法，包括基于PGD的对抗训练。
在VQA-LOL Compose和Supplement上，Mango相比基线UNITER模型准确率提升超过10个百分点，表明其在逻辑推理任务上具有显著优势。
在噪声注入过程中对图像区域和[MASK]标记实施随机掩码，可生成更具多样性的对抗嵌入，并显著提升性能，尤其在答案长度分布偏离分布的基准上表现更优。
仅在单一模态（文本或图像）上注入对抗噪声已带来显著性能提升，联合注入仅带来边际增益，表明模态特定的鲁棒性已足够。
该方法能有效泛化至其他架构，如LXMERT，在无需架构修改的情况下，显著提升所有评估基准的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。