Skip to main content
QUICK REVIEW

[論文レビュー] JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs

Junjie Chu, Yugeng Liu|arXiv (Cornell University)|Feb 8, 2024
Information and Cyber Security被引用数 11
ひとこと要約

この論文は、4つのカテゴリにわたる13の jailbreak 手法を6つの LLM に対して大規模かつ体系的に測定した初の研究であり、高い攻撃成功率と転移性を明らかにしている。しかも、十分に整列されたモデルに対しても同様の傾向が見られる。

ABSTRACT

Jailbreak attacks aim to bypass the LLMs' safeguards. While researchers have proposed different jailbreak attacks in depth, they have done so in isolation -- either with unaligned settings or comparing a limited range of methods. To fill this gap, we present a large-scale evaluation of various jailbreak attacks. We collect 17 representative jailbreak attacks, summarize their features, and establish a novel jailbreak attack taxonomy. Then we conduct comprehensive measurement and ablation studies across nine aligned LLMs on 160 forbidden questions from 16 violation categories. Also, we test jailbreak attacks under eight advanced defenses. Based on our taxonomy and experiments, we identify some important patterns, such as heuristic-based attacks could achieve high attack success rates but are easy to mitigate by defenses, causing low practicality. Our study offers valuable insights for future research on jailbreak attacks and defenses. We hope our work could help the community avoid incremental work and serve as an effective benchmark tool for practitioners.

研究の動機と目的

  • 4つの分類にまたがる13の最先端 jailbreak 攻撃の有効性を評価する。
  • 白箱・黒箱設定の下で6つのターゲットLLMに対する攻撃成功率(ASR)を評価する。
  • 16カテゴリの違反ポリシーを用いた統一的な禁止質問ポリシーを構築し、 jailbreak の有効性をベンチマークする。
  • 攻撃性能、効率性、転移性のトレードオフを分析し、ポリシーと防御研究に資する。

提案手法

  • jailbreak 手法を人間ベース、難読化ベース、最適化ベース、パラメータベースの4カテゴリに分類する。
  • 13の jailbreak 手法を取りまとめ、主要プロバイダのポリシーから構築された統一的な16カテゴリの違反ポリシーに合わせる。
  • 16の違反カテゴリからなる禁止質問データセット160項目を用いてASRを評価する。
  • 6つのターゲットLLM(ChatGLM3、Llama2、Vicuna、GPT-3.5、GPT-4、PaLM2)を使用し、白箱と黒箱の攻撃シナリオを比較する。
  • ジャッジモデル(GPT-4)を用い、Few-shotラベリングで jailbreak の成功を判定し、誤分類を抑制する。
  • 切除(アブレーション)を実施し、 jailbreak プロンプトの転移性と効率を分析する。
Figure 2 : An overview of our measurement process.
Figure 2 : An overview of our measurement process.

実験結果

リサーチクエスチョン

  • RQ1多様なLLMと違反カテゴリにおいて、異なる jailbreak 手法はどのように性能を発揮するか?
  • RQ2どのカテゴリの jailbreak 手法がモデルと設定を超えて堅牢か?
  • RQ3統一ポリシーはLLM間で jailbreak プロンプトを無効化することに対して適合するか、あるいは失敗するか?
  • RQ4モデル間で jailbreak プロンプトはどれだけ転移可能で、攻撃の効率性とのトレードオフはどうか?

主な発見

Jailbreak MethodChatGLM3Llama2VicunaGPT-3.5GPT-4PaLM2Average
AIM0.93 (±0.01)0.13 (±0.05)0.99 (±0.01)0.99 (±0.00)0.62 (±0.04)0.88 (±0.02)0.76 (±0.31)
Devmoderanti0.79 (±0.04)0.14 (±0.01)0.91 (±0.02)0.73 (±0.03)0.08 (±0.03)0.61 (±0.03)0.54 (±0.32)
Devmode v20.65 (±0.06)0.20 (±0.01)0.89 (±0.04)0.53 (±0.04)0.51 (±0.05)0.54 (±0.02)0.55 (±0.20)
Base640.02 (±0.00)0.11 (±0.01)0.15 (±0.02)0.14 (±0.03)0.49 (±0.05)0.01 (±0.01)0.15 (±0.16)
Combination0.09 (±0.01)0.06 (±0.01)0.12 (±0.01)0.31 (±0.04)0.74 (±0.04)0.04 (±0.01)0.23 (±0.25)
Zulu0.04 (±0.01)0.08 (±0.01)0.18 (±0.02)0.79 (±0.03)0.76 (±0.06)0.01 (±0.00)0.31 (±0.33)
AutoDAN0.90 (±0.03)0.58 (±0.04)0.98 (±0.01)///0.82 (±0.17)
GCG0.44 (±0.07)0.56 (±0.04)0.87 (±0.05)///0.62 (±0.18)
GPTfuzz0.88 (±0.05)0.41 (±0.02)0.79 (±0.04)0.85 (±0.01)0.41 (±0.02)0.48 (±0.01)0.64 (±0.21)
Masterkey0.82 (±0.05)0.11 (±0.03)0.88 (±0.04)0.90 (±0.02)0.54 (±0.03)0.76 (±0.03)0.67 (±0.28)
PAIR0.54 (±0.07)0.48 (±0.04)0.76 (±0.05)0.62 (±0.05)0.80 (±0.03)0.78 (±0.02)0.66 (±0.12)
TAP0.76 (±0.04)0.44 (±0.03)0.74 (±0.05)0.81 (±0.03)0.71 (±0.03)0.74 (±0.02)0.70 (±0.12)
Generation Exploitation0.80 (±0.06)0.72 (±0.08)0.95 (±0.07)///0.82 (±0.10)
Average0.59 (±0.32)0.31 (±0.22)0.71 (±0.31)0.67 (±0.26)0.57 (±0.22)0.49 (±0.32)0.56 (±0.13)
Baseline0.38 (±0.02)0.31 (±0.01)0.52 (±0.01)0.44 (±0.05)0.38 (±0.06)0.47 (±0.01)0.42 (±0.33)
  • 最適化ベースおよびパラメータベース攻撃はLLM全体で高いASRを達成し、パラメータベースが全体的に高いことが多い。
  • 難読化ベースの手法はモデル依存性が高く、普遍的には効果が限定的だが、GPT-4 の一部プロンプトで強力。
  • 人間ベースのプロンプトは多くのケースで有効であり、実世界の jailbreak データの価値を強調。
  • 6つのLLMいずれも、明示的なポリシーが存在するにもかかわらず、いくつかの違反カテゴリで顕著なASR を示す。
  • 転移性は存在し、白箱攻撃は黒箱攻撃より一般にASRが高い;攻撃の効率性のトレードオフが顕著。
  • Vicuna は多くのカテゴリで特に脆弱である一方、GPT-4 は一部の難読化ベースケースで強い抵抗を示す。
Figure 4 : Average fine-grained direct attack success rate across six target LLMs. This heatmap illustrates the relationship between jailbreak methods and violation categories. The results of AutoDAN, GCG, and Generation Exploitation are computed only on three open-source LLMs.
Figure 4 : Average fine-grained direct attack success rate across six target LLMs. This heatmap illustrates the relationship between jailbreak methods and violation categories. The results of AutoDAN, GCG, and Generation Exploitation are computed only on three open-source LLMs.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。