[论文解读] Adversarial attacks against Modern Vision-Language Models
本论文在一个自包含的电商环境中评估开源视觉-语言模型 LLaVA-v1.5-7B 与 Qwen2.5-VL-7B,对比 BIM、PGD 及基于 CLIP 的频谱攻击,发现 LLaVA 在所有攻击中脆弱性显著更高,而 Qwen 在鲁棒性方面表现更强。
We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.
研究动机与目标
- 在现实的自动购物场景中评估开源视觉-语言模型的对抗鲁棒性。
- 对比两大 VLM 家族(LLaVA-v1.5-7B 与 Qwen2.5-VL-7B)在多种梯度攻击下的表现。
- 为 VLM 驱动代理的上线前安全评估提供可操作的洞察。
- 强调攻击类型与模型架构如何影响实际部署中的鲁棒性。
提出的方法
- 构建一个自包含的电商红队框架,包含 Flask 店面、推理服务器和基于 Selenium 的浏览器代理。
- 应用三种基于梯度的攻击:BIM、PGD,以及基于 CLIP 的频谱攻击。
- 攻击扰动以 L∞ 范数界定预算和步长;BIM/PGD 为白箱攻击,基于 CLIP 的频谱攻击利用代理 CLIP 编码器以提升转移性。
- CLIP 频谱攻击在 DCT 域对齐 CLIP embedding 几何特征,对多编码器实现攻击。
- 通过每种条件下的攻击成功率(ASR)和正确购买率(CPR)在 630 次试验中进行评估。
实验结果
研究问题
- RQ1在现实部署情境中,LLaVA-v1.5-7B 与 Qwen2.5-VL-7B 在标准白箱梯度攻击下的鲁棒性有何差异?
- RQ2相较直接对单一模型进行梯度攻击,CLIP 基频谱攻击在模型间的转移性是否更强?
- RQ3在自治购买场景中,对开源 VLM 代理进行上线前安全评估的实际意义为何?
主要发现
| Method | LLaVA-v1.5-7B CPR (%) | LLaVA-v1.5-7B ASR (%) | Qwen2.5-VL-7B CPR (%) | Qwen2.5-VL-7B ASR (%) |
|---|---|---|---|---|
| Clean Baseline | 90.2 ± 2.3 | — | 98.3 ± 1.0 | — |
| BIM | 47.4 ± 3.9 | 52.6 | 93.5 ± 1.9 | 6.5 |
| PGD | 46.2 ± 3.9 | 53.8 | 92.3 ± 2.1 | 7.7 |
| CLIP Spectral | 33.1 ± 3.7 | 66.9 | 84.5 ± 2.8 | 15.5 |
- LLaVA-v1.5-7B 对 BIM(ASR 52.6%)、PGD(ASR 53.8%)以及 CLIP 频谱攻击(ASR 66.9%)高度脆弱。
- Qwen2.5-VL-7B 显示出显著更强的抗性,BIM、PGD、CLIP 频谱攻击的 ASR 分别为 6.5%、7.7%、15.5%。
- 基于 CLIP 的频谱攻击对两模型都实现了最高的 ASR,且对 LLaVA 的影响尤为显著,表明在 CLIP embedding 的特征空间扰动是一个有力的攻击向量。
- 在攻击后,Qwen 的 CPR 仍接近无攻击基线(如 BIM 时为 93.5%),而 LLaVA 的 CPR 显著下降(如 BIM 时 47.4%)。
- 开源 VLM 家族之间存在显著的鲁棒性差异;鲁棒性并非在所有架构中一致,需要在上线前进行显式评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。