[論文レビュー] How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs
本論文は、ソーシャルサイエンスに基づく分類法を導入し、LLMsを jailbreak する説得力のある対抗的なプロンプトを生成し、複数モデルで高い攻撃成功率を示し、防御を分析する。アルゴリズム的な jailbreak を超えた根本的な安全対策を提案する。
Most traditional AI safety research has approached AI models as machines and centered on algorithm-focused attacks developed by security experts. As large language models (LLMs) become increasingly common and competent, non-expert users can also impose risks during daily interactions. This paper introduces a new perspective to jailbreak LLMs as human-like communicators, to explore this overlooked intersection between everyday language interaction and AI safety. Specifically, we study how to persuade LLMs to jailbreak them. First, we propose a persuasion taxonomy derived from decades of social science research. Then, we apply the taxonomy to automatically generate interpretable persuasive adversarial prompts (PAP) to jailbreak LLMs. Results show that persuasion significantly increases the jailbreak performance across all risk categories: PAP consistently achieves an attack success rate of over $92\%$ on Llama 2-7b Chat, GPT-3.5, and GPT-4 in $10$ trials, surpassing recent algorithm-focused attacks. On the defense side, we explore various mechanisms against PAP and, found a significant gap in existing defenses, and advocate for more fundamental mitigation for highly interactive LLMs
研究の動機と目的
- 日常的な人間–LLMsの相互作用におけるAI安全性リスクを研究するため、社会科学に基づく説得技術の分類法を確立する。
- Persuasive Paraphraser を開発し、説得的な敵対的プロンプト(PAP)を自動生成する。
- 大規模なテストを用いて、リスクカテゴリと説得技術全体で jailbreak の成功を定量化する。
- PAP に対する既存の防御を評価し、適応的な防御を提案する。
- 人間のようなコミュニケーションがAI安全性における特有のリスクであることの含意を強調する。
提案手法
- 心理学、社会学、マーケティング、NLP から抽出された13の戦略に編成された40技法の分類法を作成する。
- taxonomy-guided prompts を用いて、Plain harmful queries を PAP に変換するように、Persuasive Paraphraser(GPT-3.5 のファインチューニング)を訓練する。
- PAPを用いて14のリスクカテゴリに対する広範なスキャンを実施し、専用の最適化を施さずにGPT-3.5とLlama-2モデルでjailbreakの成功を測定する。
- 成功したPAPにファインチューニングを行い、複数の整列済み LLMs(GPT-3.5、GPT-4、Claude)と攻撃ベンチマーク(AdvBench)を横断してテストするという、徹底した反復的プローブを実施する。
- GPT-4 Judge を用いて有害性を1–5スケールで評価し、結果を jailbreak か refusal に分類する。
- PAP に対する変異ベースおよび検出ベースの防御を評価し、適応的防御を提案する。
実験結果
リサーチクエスチョン
- RQ1社会科学に基づく分類法が、LLMs を jailbreak する説得力のあるプロンプトをスケーラブルに生成することを可能にするか?
- RQ2PAP は、異なるリスクカテゴリおよびモデルファミリ(Llama-2、GPT-3.5、GPT-4、Claude)でどれくらい効果的か?
- RQ3既存の事後防御はPAPを十分に緩和できるか、適応的防御は人間のような説得への安全性を向上させることができるか?
- RQ4単発対話と反復的・多技法の相互作用において、モデルの能力はPAPへの感受性とどのように関連するか?
主な発見
- PAP は Llama-2 7b Chat、GPT-3.5、GPT-4 において、10 回の試行内に jailbreak 攻撃成功率を 92% を超える達成をする。
- 論理的訴求と権威の裏付けは最も効果的な手法の中に含まれる一方、脅威は効果が低い。
- PAP は、GPT-4 を含むいくつかのモデルで、いくつかのアルゴリズム中心のベースラインを上回る。
- 防御分析は現状の事後防御の効果が限定的で、変異ベースの防御は一般的に検出ベースより強力である。
- 初期の試行では GPT-4 と GPT-3.5 は GPT-3.5 より PAP に対して脆弱であり、能力が高まると感受性が高まることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。