[論文レビュー] JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
JailbreakBench は、アーティファクト、100 の有害/有害でない行動のデータセット、標準化された評価フレームワーク、 judge クラスifier、そしてさまざまな LLM への jailbreak 攻撃と防御を追跡する公開リーダーボードを備えた、オープンで再現可能なベンチマークを提供します。
Jailbreak attacks cause large language models (LLMs) to generate harmful, unethical, or otherwise objectionable content. Evaluating these attacks presents a number of challenges, which the current collection of benchmarks and evaluation techniques do not adequately address. First, there is no clear standard of practice regarding jailbreaking evaluation. Second, existing works compute costs and success rates in incomparable ways. And third, numerous works are not reproducible, as they withhold adversarial prompts, involve closed-source code, or rely on evolving proprietary APIs. To address these challenges, we introduce JailbreakBench, an open-sourced benchmark with the following components: (1) an evolving repository of state-of-the-art adversarial prompts, which we refer to as jailbreak artifacts; (2) a jailbreaking dataset comprising 100 behaviors -- both original and sourced from prior work (Zou et al., 2023; Mazeika et al., 2023, 2024) -- which align with OpenAI's usage policies; (3) a standardized evaluation framework at https://github.com/JailbreakBench/jailbreakbench that includes a clearly defined threat model, system prompts, chat templates, and scoring functions; and (4) a leaderboard at https://jailbreakbench.github.io/ that tracks the performance of attacks and defenses for various LLMs. We have carefully considered the potential ethical implications of releasing this benchmark, and believe that it will be a net positive for the community.
研究の動機と目的
- LLMs の jailbreaking 攻撃と防御の評価を標準化する。
- 再現可能な研究を可能にする jailbreak アーティファクトのオープンリポジトリを提供する。
- 標準化されたレッドチーミング・パイプラインと防御テストのフレームワークを提供する。
- 評価のための jailbreaking judge と有害/有害でない行動のデータセットを確立する。
提案手法
- 最先端の jailbreak アーティファクトと防御の進化的リポジトリを編纂する。
- OpenAI ポリシーに沿った 100 の有害/有害でない行動を含む JBB-Behaviors データセットを定義する。
- システムプロンプト、judge、スコアリング関数を含む再現可能な評価フレームワークを開発する。
- 効果的な judge を選択するための jailbreaking classifier の評価を実施し、Llama-3-70B を採用する。
- LLM のレッドチーミング用パイプラインと、防御をテストするための別パイプラインを提供する。
- 公開リーダーボードとウェブサイトを維持し、モデル間の攻撃/防御パフォーマンスを報告する。
実験結果
リサーチクエスチョン
- RQ1Jail-breaking 攻撃を標準化し、LLMs across で再現可能に評価するにはどうすればよいか?
- RQ2統一評価フレームワークの下で、どの jailbreak アーティファクトと防御が最も効果的か?
- RQ3 jailbreaking コンテキストにおける有害コンテンツの人間の判断を最もよく近似する judge/classifier はどれか?
- RQ4オープンモデルとクローズドモデルでの攻撃の性能はどうで、適応的条件下で防御はどのように緩和するか?
主な発見
| Attack | Metric | Vicuna | Llama-2 | GPT-3.5 | GPT-4 |
|---|---|---|---|---|---|
| PAIR | Attack Success | 69% | 0% | 71% | 34% |
| PAIR | Avg. Queries | 34 | 88 | 30 | 51 |
| PAIR | Avg. Tokens | 12K | 29K | 9K | 13K |
| GCG | Attack Success | 80% | 3% | 47% | 4% |
| GCG | Avg. Queries | 256K | 256K | — | — |
| GCG | Avg. Tokens | 17M | 17M | — | — |
| JB-Chat | Attack Success | 90% | 0% | 0% | 0% |
| JB-Chat | Avg. Queries | — | — | — | — |
| JB-Chat | Avg. Tokens | — | — | — | — |
| Prompt with RS | Attack Success | 89% | 90% | 93% | 78% |
| Prompt with RS | Avg. Queries | 2 | 25 | 3 | 1K |
| Prompt with RS | Avg. Tokens | 3K | 20K | 3K | 515K |
- さまざまな攻撃がモデル全体で高い成功率を達成しており、Prompt with RS はオープン/クローズドモデルの両方で強い効果を示す。
- GCG、PAIR、JB-Chat は Vicuna、Llama-2、GPT-3.5、GPT-4 で効果がモデル依存的に異なり、堅牢性がモデル依存であることを示す。
- 5 つのベースライン防御は効果のレベルが異なり、Erase-and-Check は一般に堅牢だが普遍的ではない。
- Llama-3-70B および GPT-4 は jailbreaking 分類において人間の judge との高い一致を示し、オープンウェイト judging の代替を支持する。
- 標準化された再現可能なフレームワークは、攻撃/防御のパフォーマンスを一貫して評価でき、コミュニティの貢献を促進する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。