[論文レビュー] Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
本論文は TAP を紹介します。tree-of-thought 推論と剪定を用いて意味的に意味のあるプロンプトを生成する自動のブラックボックス脱獄手法であり、従来の手法より少ないクエリで脱獄成功率を高めています。
While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an attacker LLM to iteratively refine candidate (attack) prompts until one of the refined prompts jailbreaks the target. In addition, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks, reducing the number of queries sent to the target LLM. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4-Turbo and GPT4o) for more than 80% of the prompts. This significantly improves upon the previous state-of-the-art black-box methods for generating jailbreaks while using a smaller number of queries than them. Furthermore, TAP is also capable of jailbreaking LLMs protected by state-of-the-art guardrails, e.g., LlamaGuard.
研究の動機と目的
- 自動的なブラックボックス脱獄の研究を奨励し、LLMの安全性の限界と整列の脆弱性を理解する。
- モデル内部アクセスなしで脱獄プロンプトを生成するクエリ効率の高い手法を開発する。
- tree-of-thought 推論と剪定を活用して大規模なプロンプト空間を探索しつつ、不要なクエリを削減する。
- 多様なターゲットLLMに対してTAPを評価し、最先端のベースラインと比較する。
- 剪定、tree-of-thought、評価者の選択、攻撃の転移性などの要因を分析する。
提案手法
- TAP は3つのLLMを使用する。攻撃者は脱獄プロンプトを生成、評価者は脱獄成功とトピック適合性を判断、ターゲットLLMは脱獄される対象。
- プロンプトは深さ d、幅 w、分岐係数 b の木構造でtree-of-thought 推論を用いて洗練される。
- フェーズ1の剪定はターゲットへ問い合わせる前にトピ外プロンプトを削除し、無駄なクエリを減らす。
- フェーズ2の剪定は評価者スコアで上位のプロンプト top-w を次の層として残す。
- 脱獄が見つかるか最大深度に達するまでこのプロセスを繰り返し、総ターゲットクエリは b, w, d の関数で制限される。
- この手法は PAIR の一般化であり、tree-of-thought 推論と剪定によって冗長性とトピ外プロンプトを削減する点で改良されている。
実験結果
リサーチクエスチョン
- RQ1自動的、ブラックボックス脱獄を意味のあるプロンプトのクエリ効率の高い探索で効果的に達成できるか?
- RQ2tree-of-thought 推論とトピック適合剪定は脱獄成功率を改善し、ターゲットモデルへのクエリ数を減らすか?
- RQ3TAPはPAIRや他のベースラインと比べて様々なターゲットLLMでどうか?
- RQ4評価者の選択と剪定が脱獄の成功とクエリ効率にどのような影響を与えるか?
- RQ5生成された脱獄プロンプトは異なるLLM間で転移性があるか?
主な発見
- TAPは、ターゲットモデル全体でPAIRよりもはるかに大きな割合のプロンプトに対して脱獄を見つける。
- GPT4-Turbo では、TAP は PAIR よりかなり少ないクエリ数で 84-90% のプロンプトを脱獄。平均クエリ数は例: 22.5–28.8。
- トピ外プロンプトの剪定(フェーズ1)は総ターゲットクエリを大幅に削減し、成功率を改善する。
- tree-of-thought 分岐(非零 b)は、単一分岐の変種に比べて成功率を著しく向上させる。
- 評価者の能力は重要。GPT-4 を評価者として用いると、代替手法よりも良い性能を示す一方、最適な評価者選択にはまだ未解決の課題が残る。
- 転移性: 多くの TAP 生成脱獄は他モデルへ転移するが、Llama-2-Chat-7B のような顕著な例外もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。