Skip to main content
QUICK REVIEW

[论文解读] A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

Linjie Li, Zhe Gan|arXiv (Cornell University)|Dec 15, 2020
Multimodal Machine Learning Applications参考文献 84被引用 27
一句话总结

本文提出Mango,一种与任务无关、高效的对抗训练方法,通过在嵌入空间中学习生成多模态对抗噪声,提升视觉-语言预训练模型的鲁棒性。该方法在9项鲁棒性基准中的7项上达到最先进性能,显著提升了模型在语言变化、逻辑推理、视觉操作和分布偏移等方面的泛化能力。

ABSTRACT

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.

研究动机与目标

  • 系统评估视觉-语言预训练模型在标准基准未涵盖的各类故障模式下的鲁棒性。
  • 探究标准微调或对抗训练是否能提升模型在具有挑战性、分布偏移或扰动输入下的鲁棒性。
  • 开发一种通用、高效且与任务无关的方法,无需依赖特定任务的数据或架构,普遍增强模型鲁棒性。
  • 建立一个全面的视觉-语言模型鲁棒性评估基准套件,涵盖语言变化、逻辑推理、视觉内容操作和答案分布偏移。

提出的方法

  • 提出Mango,一种基于神经网络的对抗噪声生成器,可学习扰动多模态嵌入(图像与文本)以欺骗预训练模型。
  • 使用投影梯度下降(PGD)端到端联合训练噪声生成器与主干模型,以在嵌入空间中生成对抗样本。
  • 在噪声注入过程中对图像区域和文本中的[MASK]标记实施随机掩码,以促进对抗样本的多样性。
  • 将对抗训练框架应用于双流(LXMERT)和交叉注意力(UNITER)架构,证明其在不同模型类型上的泛化能力。
  • 采用轻量级、非迭代的噪声生成器,而非迭代式PGD,降低训练成本,同时保持鲁棒性提升。
  • 将该方法应用于标准视觉-语言任务(如NLVR2、RefCOCO),验证其与任务无关的适用性与泛化能力。

实验结果

研究问题

  • RQ1当在包含语言变化、视觉操作或分布偏移的基准上评估时,当前视觉-语言预训练模型(如UNITER、LXMERT)的鲁棒性如何?
  • RQ2标准微调或基于PGD的对抗训练是否能普遍提升多种鲁棒性类型下的模型鲁棒性,还是仅在特定故障模式下有效?
  • RQ3像Mango这样的通用、与任务无关的对抗训练方法,是否能无需特定任务适配,普遍提升多个鲁棒性基准的性能?
  • RQ4哪些组件(如随机掩码、模态特定噪声)最有效地提升对抗样本的多样性和泛化能力?
  • RQ5与标准PGD方法相比,使用学习型噪声生成器的对抗训练在鲁棒性和效率方面优势有多大?

主要发现

  • 对视觉-语言预训练模型进行标准微调,已在所评估的基准上展现出优于许多特定任务最先进方法的鲁棒性。
  • Mango在9项鲁棒性基准中的7项上达到最先进性能,显著优于现有方法,包括基于PGD的对抗训练。
  • 在VQA-LOL Compose和Supplement上,Mango相比基线UNITER模型准确率提升超过10个百分点,表明其在逻辑推理任务上具有显著优势。
  • 在噪声注入过程中对图像区域和[MASK]标记实施随机掩码,可生成更具多样性的对抗嵌入,并显著提升性能,尤其在答案长度分布偏离分布的基准上表现更优。
  • 仅在单一模态(文本或图像)上注入对抗噪声已带来显著性能提升,联合注入仅带来边际增益,表明模态特定的鲁棒性已足够。
  • 该方法能有效泛化至其他架构,如LXMERT,在无需架构修改的情况下,显著提升所有评估基准的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。