[論文レビュー] JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
ベンチマーク(JailBreakV-28K)は、LLMの jailbreak 技術がマルチモーダルLLMに転移するかを、28,000件のテキスト-画像の jailbreak ケースをテストし、10個のオープンソースMLLMのテキストベースの転移攻撃と画像ベースのMLLM攻撃の頑健性を評価することで検証します。
With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.
研究の動機と目的
- LLM に対して有効な jailbreak 技術がマルチモーダル LLM (MLLM) に転移するかを評価する。
- テキストベースおよび画像ベースの jailbreak を組み合わせた包括的で拡張性のあるベンチマーク(JailBreakV-28K)を作成する。
- 多様な jailbreak 戦略と安全ポリシー違反に対するオープンソース MLLMs の頑健性を分析する。
- テキストおよび視覚モダリティの両方で MLLMs の適合性が改善されるべき領域を強調する。
提案手法
- 複数ソースからの 16 の安全ポリシーにわたる 2,000 件の有害クエリをキュレーションした RedTeam-2K を構築する。
- LLM jailbreak 技術(テキスト)を用いて 5,000 件のテキストベース jailbreak プロンプトを生成し、画像とペアにして 20,000 件のテキストベース LLM 転移 jailbreak 攻撃を作成する。
- 最先端の画像ベース攻撃(FigStep、Query-Relevant)を用いて 8,000 件の画像ベース MLLM jailbreak 入力を追加する。
- すべてを組み合わせて JailBreakV-28K を形成し、16 の安全ポリシーと 5 種類の攻撃タイプにわたる 28,000 件の jailbreak テストケースを作成する。
- JailBreakV-28K を用いて 10 個のオープンソース MLLMs を評価し、テキストベースおよび画像ベースの攻撃での Attack Success Rate (ASR) を測定する。
- LLM 転送 jailbreak プロンプトが画像入力に関係なく有効性を保持するかを評価し、安全ポリシーの脆弱性を特定する。
実験結果
リサーチクエスチョン
- RQ1LLM に対して効果的な jailbreak 技術がマルチモーダル LLM に効果的に転移するか?
- RQ2現在のオープンソース MLLMs は、テキストベースの LLM 転移 jailbreak および画像ベースの MLLM 攻撃に対してどれくらい脆弱か?
- RQ3どの安全ポリシー領域(例: マルウェア、経済的損害など)が MLLMs の jailbreak に対して最も影響を受けやすいか?
- RQ4画像入力の種類(空白、ノイズ、自然画像、合成画像)が MLLMs のテキストベース jailbreak プロンプトの成功に影響を与えるか?
主な発見
- LLM 転移 jailbreak プロンプトは MLLMs に対して顕著な有効性を示し、モデル間で高い ASR を達成している。
- テキストベースの jailbreak 攻撃は 10 個の MLLMs で平均 50.5% の ASR を示し、全体の JailBreakV-28K の平均 ASR は 44% である。
- テキストベースのプロンプトは画像入力タイプに関係なく有効性を維持する(画像内容はテキストベースの攻撃の ASR にほとんど影響を与えない)。
- 経済的損害およびマルウェアの安全ポリシーは平均 ASR が高く、これらの領域における適合性の脆弱性を示唆する。
- MLLMs 内のエンコーダは LLM 転送 jailbreak に対して substantial な脆弱性を示し、エンコーダ上の転送攻撃の平均 ASR は約 68.7% に達する。
- LLM 転送攻撃全体で、テキストベースの手法が画像ベースの攻撃よりも有効である。
- JailBreakV-28K は LLM jailbreak 戦略の MLLMs への転移性を示し、テキストと画像の両方の入力の整合性強化が必要であることを強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。