[论文解读] Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions
本论文提出基于图像的提示注入(IPI),一种将对抗性提示嵌入自然图像以劫持多模态大模型输出的黑盒攻击,在隐蔽视觉效果下实现高攻击成功率。
Multimodal Large Language Models (MLLMs) integrate vision and text to power applications, but this integration introduces new vulnerabilities. We study Image-based Prompt Injection (IPI), a black-box attack in which adversarial instructions are embedded into natural images to override model behavior. Our end-to-end IPI pipeline incorporates segmentation-based region selection, adaptive font scaling, and background-aware rendering to conceal prompts from human perception while preserving model interpretability. Using the COCO dataset and GPT-4-turbo, we evaluate 12 adversarial prompt strategies and multiple embedding configurations. The results show that IPI can reliably manipulate the output of the model, with the most effective configuration achieving up to 64\% attack success under stealth constraints. These findings highlight IPI as a practical threat in black-box settings and underscore the need for defenses against multimodal prompt injection.
研究动机与目标
- 突出多模态大模型在视觉嵌入对抗性提示方面的脆弱性。
- 开发端到端的 IPI 流水线,将文本提示转换为可视嵌入的指令。
- 评估嵌入参数(字体大小、颜色、放置位置)对攻击隐蔽性和有效性的影响。
- 在黑盒设置中展示攻击的可迁移性并讨论对多模态提示注入的防御措施。
提出的方法
- 提出一个将对抗性提示转换为可视嵌入指令的模块化端到端流水线。
- 使用 Segment Anything Model(SAM)来选择并排序注入区域。
- 通过背景自适应渲染和自适应字体大小来嵌入提示。
- 尝试三种字体着色策略以在不可见性与可读性之间取得平衡。
- 在 COCO 数据集上对 12 个对抗性提示在黑盒设置中使用 GPT-4-turbo 进行评估。
实验结果
研究问题
- RQ1RQ1:在近乎不可见的嵌入提示下,黑盒攻击者能否可靠地促使 LLM 输出?
- RQ2RQ2:视觉属性(如字体大小、颜色对比、空间放置、区域方差)如何影响攻击成功率与隐蔽性?
主要发现
| Prompt ID | ASR (%) |
|---|---|
| Prompt 1 | 100.00 |
| Prompt 2 | 91.00 |
| Prompt 3 | 85.00 |
| Prompt 4 | 95.00 |
| Prompt 5 | 100.00 |
| Prompt 6 | 93.00 |
| Prompt 7 | 94.00 |
| Prompt 8 | 85.00 |
| Prompt 9 | 96.00 |
| Prompt 10 | 90.00 |
| Prompt 11 | 73.00 |
| Prompt 12 | 74.00 |
- IPI 能在黑盒设置中以高成功率可靠劫持模型输出。
- 提示重复(Prompt 5)在若干提示上实现 100% ASR,并在不同上下文中保持有效。
- 字体大小高于约 0.3 一般提升攻击成功率,揭示隐蔽性与有效性之间的权衡。
- 全局区域均值着色结合对象感知前缀可实现隐蔽性与 ASR 的最佳平衡(最高可达 64%)。
- 三种嵌入策略呈现不同的权衡:补丁着色在隐蔽性与 ASR 之间有适度折衷;像素级混合实现高隐蔽性但 ASR 较低;区域均值着色提供最佳总体性能。
- 该攻击在多样化图像上下文和模型设定中仍然存在,凸显了更广泛的多模态安全问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。