[论文解读] VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
VLAttack通过结合单模态和多模态策略,在视-语言预训练模型上对黑箱下游VL任务进行攻击,显示出在多模型和多任务上更高的攻击成功率。它为图像引入区块级相似性攻击(BSA),为多模态扰动引入迭代跨搜索攻击(ICSA)。
Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLATTACK to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack five widely-used VL pre-trained models for six tasks. Experimental results show that VLATTACK achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a blind spot in the deployment of pre-trained VL models. Source codes can be found at https://github.com/ericyinyzy/VLAttack.
研究动机与目标
- 在黑箱设定下(下游任务模型不可访问)激励并研究视觉—语言模型的对抗鲁棒性。
- 开发一个通用的攻击框架,能够通过预训练的VL模型对多种下游VL任务发起攻击。
- 提出单模态和多模态扰动策略,以最大化对抗样本的转移性。
提出的方法
- 单模态层面:使用区块级相似性攻击(BSA)生成图像扰动,在预训练模型的图像编码器与Transformer编码器的中间表示之间最大化区块级余弦距离。
- 单模态层面:在保持语义相似性高于阈值的前提下,使用强力NLP攻击(BERT-Attack)对文本进行扰动,同时使用通用句子编码器(Universal Sentence Encoder)来保持语义一致性。
- 多模态层面:执行迭代跨搜索攻击(ICSA),通过对另一模态的引导,迭代更新图像—文本对,复用前K个文本扰动并细化图像扰动。
- 跨模态排序:通过与无扰动文本的余弦相似性筛选前K个文本扰动,以在最大化对下游预测干扰的同时维持语义。
- 威胁模型对齐:假设可访问预训练模型,并且只能像黑箱一样查询下游微调模型。
实验结果
研究问题
- RQ1对预训练VL模型到下游黑箱VL模型在不同任务上的对抗性扰动的可转移性如何?
- RQ2单模态与多模态扰动的组合是否在黑箱VL设置中优于单模态攻击?
- RQ3哪些机制(图像特征块、文本语义)驱动VL模型中扰动的转移性?
- RQ4迭代跨搜索是否相较于更简单的多模态策略提高了攻击成功率?
主要发现
- VLAttack在五个预训练VL模型和六个任务上比现有基线具有更高的攻击成功率。
- 区块级相似性攻击(BSA)通过干扰通用表示来显著提升仅图像扰动的效果。
- 多模态迭代跨搜索攻击(ICSA)通过以语义相似的文本扰动引导对图像-文本扰动的跨更新,进一步提升成功率。
- 单模态文本扰动由于文本长度较短,往往效果不如多模态耦合,因此多模态耦合对强攻击至关重要。
- 在单模态设定下,BSA在图像-字幕任务和图像分类任务上仍然有效,表明具有更广的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。