[論文レビュー] Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models
この論文は、善意のプロンプトと敵対的な画像を組み合わせることで言語モデルへのアクセスなしにビジョン-言語モデルを jailbreak するクロスモーダル・埋め込み空間 adversarial攻撃を導入する。埋め込み空間をターゲットにし、4種類のトリガータイプを用いてVLM全体で高い jailbreak 成功を示す。
We introduce new jailbreak attacks on vision language models (VLMs), which use aligned LLMs and are resilient to text-only jailbreak attacks. Specifically, we develop cross-modality attacks on alignment where we pair adversarial images going through the vision encoder with textual prompts to break the alignment of the language model. Our attacks employ a novel compositional strategy that combines an image, adversarially targeted towards toxic embeddings, with generic prompts to accomplish the jailbreak. Thus, the LLM draws the context to answer the generic prompt from the adversarial image. The generation of benign-appearing adversarial images leverages a novel embedding-space-based methodology, operating with no access to the LLM model. Instead, the attacks require access only to the vision encoder and utilize one of our four embedding space targeting strategies. By not requiring access to the LLM, the attacks lower the entry barrier for attackers, particularly when vision encoders such as CLIP are embedded in closed-source LLMs. The attacks achieve a high success rate across different VLMs, highlighting the risk of cross-modality alignment vulnerabilities, and the need for new alignment approaches for multi-modal models.
研究の動機と目的
- Vision-Language モデル(VLM)におけるクロスモードの脆弱性を動機づけ・形式化する。
- 視覚エンコーダのみを必要とする敵対的画像を作成する埋め込み空間の組成攻撃を提案する。
- 4つの悪意あるトリガ戦略を実証し、複数の VLM に対して高い jailbreak 成功を示す。
- 防御への示唆と、クロスモーダル整合性アプローチの必要性を強調する。
提案手法
- 悪意あるプロンプトを、共同埋め込み空間での一般的なテキスト指示の埋め込みと敵対的な画像の埋め込みの組み合わせとして表現する。
- 共同埋め込み空間における4つの悪意あるトリガー型を定義する:テキスト型トリガー、OCR テキスト型トリガー、視覚トリガー、そして結合 OCR テキスト型および視覚トリガー。
- 埋め込みの一致(embedding-space matching)を用いたエンドツーエンドの勾配更新で、敵対的画像の埋め込みを対象の悪意ある埋め込みと整列させる。
- 埋め込み空間の損失で更新を制約し、CLIP の画像エンコーダを用いて善良に見えつつ有効な敵対的画像を生成する。
- 二つの VLM(LLaVA と LLaMA-Adapter V2)で、効果的な人間評価および自動的な毒性評価を8つの jailbreak カテゴリに対して実施する。

実験結果
リサーチクエスチョン
- RQ1クロスモーダルな埋め込み空間攻撃は、LLM へのホワイトボックスアクセスなしに VLM のテキスト安全性アライメントを破ることができるのか。
- RQ2OCR を含む視覚トリガーおよび結合トリガーを含む画像ベースの悪意トリガーは、テキストトリガーと比較して VLM の jailbreaking にどれほど効果的か。
- RQ3埋め込み空間攻撃は、さまざまなプロンプトタイプやトリガー間で一般化し、組成性を維持できるのか。
主な発見
| Table 1: Trigger Scenario | S | H | V | SH | HR | S3 | H2 | V2 | Avg. |
|---|---|---|---|---|---|---|---|---|---|
| Textual trigger | 0.02 | 0.01 | 0.00 | 0.00 | 0.00 | 0.02 | 0.00 | 0.01 | 0.007 |
| OCR text. trigger | 0.86 | 0.91 | 0.97 | 0.74 | 0.88 | 0.78 | 0.88 | 0.77 | 0.849 |
| Visual trigger | 0.91 | 0.95 | 0.89 | 0.71 | 0.90 | 0.80 | 0.88 | 0.75 | 0.849 |
| Combined trigger | 0.92 | 0.98 | 0.96 | 0.74 | 0.88 | 0.82 | 0.89 | 0.77 | 0.870 |
| Textual trigger (LLaMA-Adapter V2) | 0.01 | 0.01 | 0.00 | 0.00 | 0.00 | 0.01 | 0.01 | 0.01 | 0.006 |
| OCR text. trigger (LLaMA-Adapter V2) | 0.64 | 0.62 | 0.81 | 0.48 | 0.58 | 0.54 | 0.52 | 0.64 | 0.604 |
| Visual trigger (LLaMA-Adapter V2) | 0.72 | 0.68 | 0.74 | 0.50 | 0.57 | 0.61 | 0.46 | 0.58 | 0.608 |
| Combined trigger (LLaMA-Adapter V2) | 0.74 | 0.69 | 0.79 | 0.51 | 0.54 | 0.63 | 0.54 | 0.62 | 0.633 |
- 敵対的画像が画像ベースのトリガー(OCR、視覚、または結合)に向けて最適化されると、8つのカテゴリ全体で高い jailbreak 成功を達成し、テキスト型トリガーを上回る。
- OCR テキスト型および視覚の結合トリガーは、トリガー型の中で最高の攻撃成功率をもたらす。
- LLaVA は LLaMA-Adapter V2 より脆弱であるが、両者とも視覚ベースのトリガーに対して脆弱であり、モダリティ間のギャップがテキスト型トリガーの有効性を制限している。
- 自動毒性評価は、OCR および視覚トリガーがより高い毒性スコアを引き起こす可能性を示し、結合トリガーが最も効果的である。
- 画像による隠れたプロンプト注入は、プロンプトの漏洩と間接的なプロンプト注入能力を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。