[论文解读] Directional Embedding Smoothing for Robust Vision Language Models
论文将 RESTA 扩展到视觉-语言模型,并显示定向嵌入噪声在对抗多模态越狱方面显著提升防御效果,同时在安全性-效用权衡上具有良好表现,适用于 LLaVA 和 Gemma 模型。
The safety and reliability of vision-language models (VLMs) are a crucial part of deploying trustworthy agentic AI systems. However, VLMs remain vulnerable to jailbreaking attacks that undermine their safety alignment to yield harmful outputs. In this work, we extend the Randomized Embedding Smoothing and Token Aggregation (RESTA) defense to VLMs and evaluate its performance against the JailBreakV-28K benchmark of multi-modal jailbreaking attacks. We find that RESTA is effective in reducing attack success rate over this diverse corpus of attacks, in particular, when employing directional embedding noise, where the injected noise is aligned with the original token embedding vectors. Our results demonstrate that RESTA can contribute to securing VLMs within agentic systems, as a lightweight, inference-time defense layer of an overall security framework.
研究动机与目标
- 在具备代理AI系统的愿景下,强调视觉-语言模型的安全性与可靠性需求。
- 改编并评估面向 VLM 的 RESTA 防御,以缓解越狱攻击。
- 在多种 VLM 上,通过 JailBreakV-28K 与 ScienceQA 基准评估安全性-效用权衡。
- 识别嵌入噪声方向性对防御效果的影响。
提出的方法
- 通过在自回归生成过程中扰动用户内容嵌入,将 RESTA 扩展到 VLMs。
- 对比两种扰动变体:各向同性高斯噪声与与嵌入方向对齐的硬性定向噪声。
- 每个标记使用 k=10 个扰动并多数投票选择下一个标记。
- 使用 JailBreakV-28K 评估防御的攻击成功率,用 ScienceQA 评估效用。
- 给出 LLaVA-1.5-7B 与 Gemma-3-4B 模型的结果。
实验结果
研究问题
- RQ1定向(硬性)嵌入噪声是否比各向同性噪声更能提升 VLM 的 RESTA 效果?
- RQ2将 RESTA 应用于视觉-语言模型在 JailBreakV-28K 攻击下的安全性-效用权衡如何?
- RQ3LLaVA-1.5-7B 与 Gemma-3-4B 在对 RESTA 扰动的响应上有何差异?
- RQ4嵌入方向性是否是同时保持语义内容与降低越狱成功率的关键因素?
- RQ5针对基于 RESTA 的 VLMs 的自适应攻击存在哪些局限性与未来方向?
主要发现
| Noise σ | SciQA (%) (Hard) | ASR (%) (Hard) | SciQA (%) (Normal) | ASR (%) (Normal) |
|---|---|---|---|---|
| 0 | 64.07 | 50.13 | 64.07 | 50.13 |
| 0.001 | 64.21 | 49.91 | 64.04 | 50.20 |
| 0.002 | 63.85 | 49.26 | 64.02 | 50.10 |
| 0.003 | 63.55 | 47.08 | — | — |
| 0.004 | 61.97 | 37.64 | — | — |
| 0.005 | 61.42 | 25.93 | 63.90 | 49.08 |
| 0.006 | 58.45 | 20.79 | — | — |
| 0.007 | 55.93 | 18.17 | — | — |
| 0.008 | 51.64 | 15.81 | — | — |
| 0.009 | 47.72 | 12.67 | — | — |
| 0.010 | 45.37 | 10.19 | 60.50 | 46.08 |
| 0.011 | 42.21 | 7.93 | — | — |
| 0.012 | 39.59 | 6.40 | — | — |
| 0.013 | 36.93 | 5.30 | — | — |
| 0.014 | 34.99 | 4.46 | — | — |
| 0.015 | 32.00 | 3.74 | 55.41 | 42.91 |
| 0.020 | 23.46 | 2.37 | 39.09 | 42.75 |
| 0.025 | 19.00 | 2.14 | 14.97 | 32.60 |
| 0.030 | 16.20 | 2.03 | 9.50 | 23.62 |
| 0.040 | 11.74 | 1.84 | 15.02 | 5.04 |
| 0.050 | 10.73 | 1.93 | 23.08 | 5.20 |
- 硬性定向噪声在两个 VLM 上均带来比各向同性噪声更有利的安全性-效用权衡。
- LLaVA-1.5-7B:越狱 ASR 从 50.13% 降至 25.93%,ScienceQA 的准确率损失很小(64.07% 降至 61.42%)。
- Gemma-3-4B:ASR 与 SciQA 随 sigma 变化,较高噪声水平(如 sigma 达 0.5–1.5)时安全性显著提升,同时 SciQA 性能保持在非平凡水平。
- 各向同性噪声通常产生较差的权衡,接近或劣于无效基线。
- RESTA 可以作为一种轻量级、推理时防御层,嵌入在 VLM 的安全框架中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。