[論文レビュー] Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models
この研究は、 jailbreaking prompts を体系化し、3つの商用LLM に対する有効性を測定し、 prompts の作成方法に関する92名ユーザー研究を実施し、半自動の AI 支援 jailbreak ジェネレーターを実証する。
Recent advancements in generative AI have enabled ubiquitous access to large language models (LLMs). Empowered by their exceptional capabilities to understand and generate human-like text, these models are being increasingly integrated into our society. At the same time, there are also concerns on the potential misuse of this powerful technology, prompting defensive measures from service providers. To overcome such protection, jailbreaking prompts have recently emerged as one of the most effective mechanisms to circumvent security restrictions and elicit harmful content originally designed to be prohibited. Due to the rapid development of LLMs and their ease of access via natural languages, the frontline of jailbreak prompts is largely seen in online forums and among hobbyists. To gain a better understanding of the threat landscape of semantically meaningful jailbreak prompts, we systemized existing prompts and measured their jailbreak effectiveness empirically. Further, we conducted a user study involving 92 participants with diverse backgrounds to unveil the process of manually creating jailbreak prompts. We observed that users often succeeded in jailbreak prompts generation regardless of their expertise in LLMs. Building on the insights from the user study, we also developed a system using AI as the assistant to automate the process of jailbreak prompt generation.
研究の動機と目的
- 既存の jailbreaking prompts の根底にある戦略とそれらの有効性を特徴づける。
- ユーザー研究を通じて、人間が意味論的に意味のある jailbreaking prompts をどのように開発するかを理解する。
- AI アシスタントを用いて jailbreaking prompts 生成を自動化する可能性を探る。
提案手法
- オンラインソースから実環境の jailbreaking prompts を448件収集し、テーマ分析を通じて161件の悪意のあるクエリを抽出した。
- ジャイルブレイキングの有効性を定量化するため、EMHとJSRという2つの人間注釈ベースの指標を開発した。
- GPT-3.5、GPT-4、PaLM-2を対象に、各プロンプト5回生成と人間注釈を用いて評価した。
- 効果的なプロンプト変換の要素を特定するためのアブレーション研究を実施した。
- プロンプトを反復的に変異させ、ジャイルブレイキングの有効性への影響を766の開始プロンプトでテストする、対話型のAI支援フレームワークを構築した。

実験結果
リサーチクエスチョン
- RQ1RQ1: 既存のジャイルブレイキング prompts の基盤となる戦略とそれらの有効性は何か?
- RQ2RQ2: 人間が現実世界で意味論的に意味のあるジャイルブレイキング攻撃を開発・実行する過程は何か?
- RQ3RQ3: 人間とAIは協力して意味論的に意味のあるジャイルブレイキング prompts の生成を自動化できるか?
主な発見
- ジャイルブレイキング prompts は5つのカテゴリと10のパターンにクラスタリングされ、2つの戦略がモデルを超えて最も効果的である。
- 経験の浅い参加者でさえ、92名の参加者を対象としたユーザー研究で成功したジャイルブレイキングを構築できた。
- GPT-4 は GPT-3.5 および PaLM-2 と比較してジャイルブレイキング試行に対する頑健性が高く、EMH および JSR 値が低い。
- ハイブリッド戦略と仮想AIシミュレーションが最も効果的なパターンであり、構造化応答は効果が低い。
- GPT-3.5、GPT-4、PaLM-2 の全てでジャイルブレイキングを生み出す普遍的なジャイルブレイキング prompts が存在する。
- より長く複雑な prompts は、EMH および JSR スコアが高くなることと正の相関がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。