[论文解读] A Closer Look at the Robustness of Vision-and-Language Pre-trained Models
本文提出Mango,一种与任务无关、高效的对抗训练方法,通过在嵌入空间中学习生成多模态对抗噪声,提升视觉-语言预训练模型的鲁棒性。该方法在9项鲁棒性基准中的7项上达到最先进性能,显著提升了模型在语言变化、逻辑推理、视觉操作和分布偏移等方面的泛化能力。
Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.
研究动机与目标
- 系统评估视觉-语言预训练模型在标准基准未涵盖的各类故障模式下的鲁棒性。
- 探究标准微调或对抗训练是否能提升模型在具有挑战性、分布偏移或扰动输入下的鲁棒性。
- 开发一种通用、高效且与任务无关的方法,无需依赖特定任务的数据或架构,普遍增强模型鲁棒性。
- 建立一个全面的视觉-语言模型鲁棒性评估基准套件,涵盖语言变化、逻辑推理、视觉内容操作和答案分布偏移。
提出的方法
- 提出Mango,一种基于神经网络的对抗噪声生成器,可学习扰动多模态嵌入(图像与文本)以欺骗预训练模型。
- 使用投影梯度下降(PGD)端到端联合训练噪声生成器与主干模型,以在嵌入空间中生成对抗样本。
- 在噪声注入过程中对图像区域和文本中的[MASK]标记实施随机掩码,以促进对抗样本的多样性。
- 将对抗训练框架应用于双流(LXMERT)和交叉注意力(UNITER)架构,证明其在不同模型类型上的泛化能力。
- 采用轻量级、非迭代的噪声生成器,而非迭代式PGD,降低训练成本,同时保持鲁棒性提升。
- 将该方法应用于标准视觉-语言任务(如NLVR2、RefCOCO),验证其与任务无关的适用性与泛化能力。
实验结果
研究问题
- RQ1当在包含语言变化、视觉操作或分布偏移的基准上评估时,当前视觉-语言预训练模型(如UNITER、LXMERT)的鲁棒性如何?
- RQ2标准微调或基于PGD的对抗训练是否能普遍提升多种鲁棒性类型下的模型鲁棒性,还是仅在特定故障模式下有效?
- RQ3像Mango这样的通用、与任务无关的对抗训练方法,是否能无需特定任务适配,普遍提升多个鲁棒性基准的性能?
- RQ4哪些组件(如随机掩码、模态特定噪声)最有效地提升对抗样本的多样性和泛化能力?
- RQ5与标准PGD方法相比,使用学习型噪声生成器的对抗训练在鲁棒性和效率方面优势有多大?
主要发现
- 对视觉-语言预训练模型进行标准微调,已在所评估的基准上展现出优于许多特定任务最先进方法的鲁棒性。
- Mango在9项鲁棒性基准中的7项上达到最先进性能,显著优于现有方法,包括基于PGD的对抗训练。
- 在VQA-LOL Compose和Supplement上,Mango相比基线UNITER模型准确率提升超过10个百分点,表明其在逻辑推理任务上具有显著优势。
- 在噪声注入过程中对图像区域和[MASK]标记实施随机掩码,可生成更具多样性的对抗嵌入,并显著提升性能,尤其在答案长度分布偏离分布的基准上表现更优。
- 仅在单一模态(文本或图像)上注入对抗噪声已带来显著性能提升,联合注入仅带来边际增益,表明模态特定的鲁棒性已足够。
- 该方法能有效泛化至其他架构,如LXMERT,在无需架构修改的情况下,显著提升所有评估基准的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。