[論文レビュー] GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
GPTFUZZER はブラックボックスファズィングを通じて jailbreak プロンプト生成を自動化し、LLMを堅牢に red-team化することで、複数のモデルにおいて高い攻撃成功率を達成します。
Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial jailbreak attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce GPTFuzz, a novel black-box jailbreak fuzzing framework inspired by the AFL fuzzing framework. Instead of manual engineering, GPTFuzz automates the generation of jailbreak templates for red-teaming LLMs. At its core, GPTFuzz starts with human-written templates as initial seeds, then mutates them to produce new templates. We detail three key components of GPTFuzz: a seed selection strategy for balancing efficiency and variability, mutate operators for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We evaluate GPTFuzz against various commercial and open-source LLMs, including ChatGPT, LLaMa-2, and Vicuna, under diverse attack scenarios. Our results indicate that GPTFuzz consistently produces jailbreak templates with a high success rate, surpassing human-crafted templates. Remarkably, GPTFuzz achieves over 90% attack success rates against ChatGPT and Llama-2 models, even with suboptimal initial seed templates. We anticipate that GPTFuzz will be instrumental for researchers and practitioners in examining LLM robustness and will encourage further exploration into enhancing LLM safety.
研究の動機と目的
- 自動化された jailbreak プロンプト生成による LLM の安全性の堅牢な評価を促進する。
- 手動の jailbreak プロンプトのスケーラビリティ、カバレッジ、適応性の限界に対処する。
- ファズィングの概念を活用して、より広い jailbreak テンプレート空間を探索する。
- 公開コードとモデルを備えた再現可能なフレームワークを提供し、LLM の堅牢性テストを行う。
提案手法
- 人間が作成した jailbreak テンプレートをシードとして開始し、それらを変異させて新しいテンプレートを生成する。
- 効率と多様性のバランスを取るために、シード選択戦略(Random、Round Robin、UCB、MCTS-Explore)を使用する。
- 5つのオペレータでテンプレートを変異させる:Generate、Crossover、Expand、Shorten、Rephrase。
- 変異したテンプレートをターゲット質問と組み合わせ、LLM に照会して jailbreak 成功を評価する。
- 応答が jailbroken かどうかを判断するため、ローカルにファインチューニングした RoBERTa ベースのジャッジメントモデルを用いる。)
実験結果
リサーチクエスチョン
- RQ1RQ1: 人間が作成した jailbreak テンプレートは、人気の LLM に対してどれくらい効果的か?
- RQ2RQ2: 攻撃パフォーマンスにおいて、GPTFUZZER は人間が作成したテンプレートを上回るか?
- RQ3RQ3: 未知の質問や未見の LLM に対して、GPTFUZZER は普遍的なテンプレートを生成する能力があるか?
- RQ4RQ4: GPTFUZZER の攻撃性能に大きく影響する要因は何か?
主な発見
- GPTFUZZER は商用・オープンソースの LLM 全体で一貫して高い攻撃成功率を達成する。
- このフレームワークは、ChatGPT および Llama-2 に対して 90% を超える攻撃成功率をもたらし、サブ最適なシードでも同様。
- 生成されたプロンプトは未見の LLM への転移性が高く、Bard (61%), Claude-2 (90%), PaLM2 (95%) が影響を受けた。
- GPTFUZZER は多くの場合、人間が作成したテンプレートよりも効果的である。
- シード選択戦略(MCTS-Explore を含む)は、jailbreak テンプレートの探索と多様性を高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。