Skip to main content
QUICK REVIEW

[论文解读] Adversarial attacks against Modern Vision-Language Models

Alejandro Paredes La Torre|arXiv (Cornell University)|Mar 17, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

本论文在一个自包含的电商环境中评估开源视觉-语言模型 LLaVA-v1.5-7B 与 Qwen2.5-VL-7B,对比 BIM、PGD 及基于 CLIP 的频谱攻击,发现 LLaVA 在所有攻击中脆弱性显著更高,而 Qwen 在鲁棒性方面表现更强。

ABSTRACT

We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.

研究动机与目标

  • 在现实的自动购物场景中评估开源视觉-语言模型的对抗鲁棒性。
  • 对比两大 VLM 家族(LLaVA-v1.5-7B 与 Qwen2.5-VL-7B)在多种梯度攻击下的表现。
  • 为 VLM 驱动代理的上线前安全评估提供可操作的洞察。
  • 强调攻击类型与模型架构如何影响实际部署中的鲁棒性。

提出的方法

  • 构建一个自包含的电商红队框架,包含 Flask 店面、推理服务器和基于 Selenium 的浏览器代理。
  • 应用三种基于梯度的攻击:BIM、PGD,以及基于 CLIP 的频谱攻击。
  • 攻击扰动以 L∞ 范数界定预算和步长;BIM/PGD 为白箱攻击,基于 CLIP 的频谱攻击利用代理 CLIP 编码器以提升转移性。
  • CLIP 频谱攻击在 DCT 域对齐 CLIP embedding 几何特征,对多编码器实现攻击。
  • 通过每种条件下的攻击成功率(ASR)和正确购买率(CPR)在 630 次试验中进行评估。

实验结果

研究问题

  • RQ1在现实部署情境中,LLaVA-v1.5-7B 与 Qwen2.5-VL-7B 在标准白箱梯度攻击下的鲁棒性有何差异?
  • RQ2相较直接对单一模型进行梯度攻击,CLIP 基频谱攻击在模型间的转移性是否更强?
  • RQ3在自治购买场景中,对开源 VLM 代理进行上线前安全评估的实际意义为何?

主要发现

MethodLLaVA-v1.5-7B CPR (%)LLaVA-v1.5-7B ASR (%)Qwen2.5-VL-7B CPR (%)Qwen2.5-VL-7B ASR (%)
Clean Baseline90.2 ± 2.398.3 ± 1.0
BIM47.4 ± 3.952.693.5 ± 1.96.5
PGD46.2 ± 3.953.892.3 ± 2.17.7
CLIP Spectral33.1 ± 3.766.984.5 ± 2.815.5
  • LLaVA-v1.5-7B 对 BIM(ASR 52.6%)、PGD(ASR 53.8%)以及 CLIP 频谱攻击(ASR 66.9%)高度脆弱。
  • Qwen2.5-VL-7B 显示出显著更强的抗性,BIM、PGD、CLIP 频谱攻击的 ASR 分别为 6.5%、7.7%、15.5%。
  • 基于 CLIP 的频谱攻击对两模型都实现了最高的 ASR,且对 LLaVA 的影响尤为显著,表明在 CLIP embedding 的特征空间扰动是一个有力的攻击向量。
  • 在攻击后,Qwen 的 CPR 仍接近无攻击基线(如 BIM 时为 93.5%),而 LLaVA 的 CPR 显著下降(如 BIM 时 47.4%)。
  • 开源 VLM 家族之间存在显著的鲁棒性差异;鲁棒性并非在所有架构中一致,需要在上线前进行显式评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。