[論文レビュー] Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
Rainbow Teaming は quality-diversity search (MAP-Elites) を用いて、LLMs の安全性を自動的に向上させる多様な adversarial prompts のアーカイブを生成し、一般的な能力を損なうことなく頑健性のための合成データを可能にします。
As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to adversarial attacks is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel black-box approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem and uses open-ended search to generate prompts that are both effective and diverse. Focusing on the safety domain, we use Rainbow Teaming to target various state-of-the-art LLMs, including the Llama 2 and Llama 3 models. Our approach reveals hundreds of effective adversarial prompts, with an attack success rate exceeding 90% across all tested models. Furthermore, we demonstrate that prompts generated by Rainbow Teaming are highly transferable and that fine-tuning models with synthetic data generated by our method significantly enhances their safety without sacrificing general performance or helpfulness. We additionally explore the versatility of Rainbow Teaming by applying it to question answering and cybersecurity, showcasing its potential to drive robust open-ended self-improvement in a wide range of applications.
研究の動機と目的
- LLM の安全性を多様な攻撃ベクトルと領域において堅牢に評価することを動機づける。
- heavy human input を伴わずに多様な adversarial prompts を生成する一般的でオープンエンドな方法を開発する。
- 多様性が診断カバレッジを改善し、安全性ファインチューニング(SFT)の効果的な合成データを可能にすることを示す。
- 安全性、QA、サイバーセキュリティの分野横断適用性と、モデルサイズ間の移植性を示す。
提案手法
- MAP-Elites を用いて adversarial prompt generation を quality-diversity (QD) の問題として定式化する。
- 多様性をエンコードする K 次元の特徴アーカイブを構築する(例:Risk Category、Attack Style)。
- 指定された特徴記述子を条件として候補プロンプトを生成する Mutator LLM を用いる。
- 候補プロンプトと Judge LLM による安全性/ unsafe 応答を比較し、アーカイブを更新する。
- 報酬ハッキングを避け、オープンエンドな改善を促進する Judge-based の好みモデルを採用する。
- 任意でドメイン特有の突然変異を適用し、ドメイン関連の評価者(GPT-4、Llama Guard)で評価する。
実験結果
リサーチクエスチョン
- RQ1安全性、QA、サイバーセキュリティ分野を跨ぐ広く高品質な adversarial prompts のアーカイブをオープンエンドな QD 探索で生成できるか?
- RQ2一つのモデルやドメインで見つかった adversarial prompts が他のモデルやドメインへ転移するか?
- RQ3類似度フィルターを組み込むことで、効果を損なうことなくプロンプトの多様性を維持できるか?
- RQ4システムプロンプトと好みモデルは頑健性の結果と評価バイアスに大きな影響を与えるか?
- RQ5Rainbow Teaming によって生成された合成データをファインチューニングに使用した場合、安全性と頑健性を意味のある程度に改善できるか?
主な発見
- この手法は、2000 回のイテレーションで領域/モデルごとに数百の adversarial prompts を発見し、多様な脆弱性診断を可能にする。
- Llama 2-chat 系列での安全性実験では、7B が ~92% ASR (GPT-4) および 84% (13B) を、モデルに応じて達成し、70B は約 87% (GPT-4) 。
- モデルサイズ間の転移は顕著で、7B 向けに生成された prompts は 13B および 70B へ顕著な割合で転移する(それぞれ 46% および 53%)。
- 変異段階での類似度フィルターは多様性を維持しつつ self-BLEU を 0.90 から 0.39 に低減しつつ、高い ASR を保持する(GPT-4 0.92、Llama Guard 0.89)。
- 比較的 judge ベースの好みが報酬ハッキングを回避し、スコアベースのアプローチよりも GPT-4 の ASR 整合性を高める。
- Rainbow Teaming によって生成された合成データでのファインチューニングは、ASR を劇的に低減させる(7B: GPT-4 0.92 から 0.026、Llama Guard 0.82 から 0.013)一方で GSM8K や MMLU を害さず、さらなる adversarial 訓練のラウンドが頑健性を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。