[論文レビュー] Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions
論文は、自然画像に対して敵対的プロンプトを埋め込むことでマルチモーダルLLMの出力を乗っ取る黒箱攻撃であるImage-based Prompt Injection(IPI)を導入し、ステルシーな視覚表現で高い攻撃成功率を達成する。
Multimodal Large Language Models (MLLMs) integrate vision and text to power applications, but this integration introduces new vulnerabilities. We study Image-based Prompt Injection (IPI), a black-box attack in which adversarial instructions are embedded into natural images to override model behavior. Our end-to-end IPI pipeline incorporates segmentation-based region selection, adaptive font scaling, and background-aware rendering to conceal prompts from human perception while preserving model interpretability. Using the COCO dataset and GPT-4-turbo, we evaluate 12 adversarial prompt strategies and multiple embedding configurations. The results show that IPI can reliably manipulate the output of the model, with the most effective configuration achieving up to 64\% attack success under stealth constraints. These findings highlight IPI as a practical threat in black-box settings and underscore the need for defenses against multimodal prompt injection.
研究の動機と目的
- マルチモーダルLLMsが視覚的に埋め込まれた敵対的プロンプトに対して脆弱であることを強調する。
- テキストプロンプトを視覚的に埋め込まれた指示へ変換するエンドツーエンドのIPIパイプラインを開発する。
- 埋め込みパラメータ(フォントサイズ、色、配置)が攻撃のステルス性と効果に与える影響を評価する。
- ブラックボックス設定での攻撃の転移性を実証し、マルチモーダルプロンプト注入に対する防御策を検討する。
提案手法
- 敵対的プロンプトを視覚的に埋め込まれた指示へ変換するモジュラーなエンドツーエンドパイプラインを提案する。
- Segment Anything Model(SAM)を用いて埋め込み領域を選択・ランク付けする。
- 背景を意識したレンダリングと適応フォントサイズ設定でプロンプトを埋め込む。
- 見えにくさと可読性のバランスを取るため、3つのフォントカラー戦略を実験する。
- COCOデータセット上で12個の敵対的プロンプトを、ブラックボックス設定のGPT-4-turboで評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1:ブラックボックスの攻撃者は自然画像中にほぼ見えない埋め込みプロンプトを用いて、LLMの出力を信頼性高く誘導できるか。
- RQ2RQ2:フォントサイズ、カラー対比、空間配置、領域分散といった視覚属性が、攻撃の成功とステルス性にどのように影響するか。
主な発見
| Prompt ID | ASR (%) |
|---|---|
| Prompt 1 | 100.00 |
| Prompt 2 | 91.00 |
| Prompt 3 | 85.00 |
| Prompt 4 | 95.00 |
| Prompt 5 | 100.00 |
| Prompt 6 | 93.00 |
| Prompt 7 | 94.00 |
| Prompt 8 | 85.00 |
| Prompt 9 | 96.00 |
| Prompt 10 | 90.00 |
| Prompt 11 | 73.00 |
| Prompt 12 | 74.00 |
- IPIはブラックボックス設定で高い成功率を持ってモデル出力を乗っ取ることができる。
- プロンプトの繰り返し(Prompts 5)は複数のプロンプトで100%のASRを達成し、文脈を跨いでも有効である。
- フォントサイズが0.3程度を超えると一般に攻撃の成功率が向上し、ステルス性と効果のトレードオフが露呈する。
- オブジェクト認識に基づく接頭辞を含むグローバル領域平均カラーリングは、ステルス性とASRの最も良いバランス(最大64%)を提供する。
- 3つの埋め込み戦略は異なるトレードオフを示す:パッチカラーリングはある程度のステルス性と適度なASR、ピクセルレベルのブレンドは高いステルス性だがASRが低い、領域平均カラーリングは全体的な性能で最良。
- 攻撃は多様な画像文脈とモデル設定で持続し、広範なマルチモーダルセキュリティ上の懸念を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。