QUICK REVIEW

[论文解读] Adversarial attacks against Modern Vision-Language Models

Alejandro Paredes La Torre|arXiv (Cornell University)|Mar 17, 2026

Adversarial Robustness in Machine Learning被引用 0

一句话总结

本论文在一个自包含的电商环境中评估开源视觉-语言模型 LLaVA-v1.5-7B 与 Qwen2.5-VL-7B，对比 BIM、PGD 及基于 CLIP 的频谱攻击，发现 LLaVA 在所有攻击中脆弱性显著更高，而 Qwen 在鲁棒性方面表现更强。

ABSTRACT

We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.

研究动机与目标

在现实的自动购物场景中评估开源视觉-语言模型的对抗鲁棒性。
对比两大 VLM 家族（LLaVA-v1.5-7B 与 Qwen2.5-VL-7B）在多种梯度攻击下的表现。
为 VLM 驱动代理的上线前安全评估提供可操作的洞察。
强调攻击类型与模型架构如何影响实际部署中的鲁棒性。

提出的方法

构建一个自包含的电商红队框架，包含 Flask 店面、推理服务器和基于 Selenium 的浏览器代理。
应用三种基于梯度的攻击：BIM、PGD，以及基于 CLIP 的频谱攻击。
攻击扰动以 L∞ 范数界定预算和步长；BIM/PGD 为白箱攻击，基于 CLIP 的频谱攻击利用代理 CLIP 编码器以提升转移性。
CLIP 频谱攻击在 DCT 域对齐 CLIP embedding 几何特征，对多编码器实现攻击。
通过每种条件下的攻击成功率（ASR）和正确购买率（CPR）在 630 次试验中进行评估。

实验结果

研究问题

RQ1在现实部署情境中，LLaVA-v1.5-7B 与 Qwen2.5-VL-7B 在标准白箱梯度攻击下的鲁棒性有何差异？
RQ2相较直接对单一模型进行梯度攻击，CLIP 基频谱攻击在模型间的转移性是否更强？
RQ3在自治购买场景中，对开源 VLM 代理进行上线前安全评估的实际意义为何？

主要发现

Method	LLaVA-v1.5-7B CPR (%)	LLaVA-v1.5-7B ASR (%)	Qwen2.5-VL-7B CPR (%)	Qwen2.5-VL-7B ASR (%)
Clean Baseline	90.2 ± 2.3	—	98.3 ± 1.0	—
BIM	47.4 ± 3.9	52.6	93.5 ± 1.9	6.5
PGD	46.2 ± 3.9	53.8	92.3 ± 2.1	7.7
CLIP Spectral	33.1 ± 3.7	66.9	84.5 ± 2.8	15.5

LLaVA-v1.5-7B 对 BIM（ASR 52.6%）、PGD（ASR 53.8%）以及 CLIP 频谱攻击（ASR 66.9%）高度脆弱。
Qwen2.5-VL-7B 显示出显著更强的抗性，BIM、PGD、CLIP 频谱攻击的 ASR 分别为 6.5%、7.7%、15.5%。
基于 CLIP 的频谱攻击对两模型都实现了最高的 ASR，且对 LLaVA 的影响尤为显著，表明在 CLIP embedding 的特征空间扰动是一个有力的攻击向量。
在攻击后，Qwen 的 CPR 仍接近无攻击基线（如 BIM 时为 93.5%），而 LLaVA 的 CPR 显著下降（如 BIM 时 47.4%）。
开源 VLM 家族之间存在显著的鲁棒性差异；鲁棒性并非在所有架构中一致，需要在上线前进行显式评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。