QUICK REVIEW

[論文レビュー] Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study

Yi Liu, Gelei Deng|arXiv (Cornell University)|May 23, 2023

Topic Modeling被引用数 100

ひとこと要約

この研究は jailbreak プロンプトを分類する分類法を提案し、3,120 の jailbreak 質問を8つの禁止状況で GPT-3.5-TURBO および GPT-4 を横断して ChatGPT の制限を回避できるかを実証的に検証し、モデルの頑健性とプロンプトの進化を分析する。

ABSTRACT

Large Language Models (LLMs), like ChatGPT, have demonstrated vast potential but also introduce challenges related to content constraints and potential misuse. Our study investigates three key research questions: (1) the number of different prompt types that can jailbreak LLMs, (2) the effectiveness of jailbreak prompts in circumventing LLM constraints, and (3) the resilience of ChatGPT against these jailbreak prompts. Initially, we develop a classification model to analyze the distribution of existing prompts, identifying ten distinct patterns and three categories of jailbreak prompts. Subsequently, we assess the jailbreak capability of prompts with ChatGPT versions 3.5 and 4.0, utilizing a dataset of 3,120 jailbreak questions across eight prohibited scenarios. Finally, we evaluate the resistance of ChatGPT against jailbreak prompts, finding that the prompts can consistently evade the restrictions in 40 use-case scenarios. The study underscores the importance of prompt structures in jailbreaking LLMs and discusses the challenges of robust jailbreak prompt generation and prevention.

研究の動機と目的

jailbreak プロンプトのタイプとパターンを特定・分類する。
禁止状況とモデルバージョン間で jailbreak の有効性を定量化する。
時間とともに jailbreak プロンプトの頑健性と進化を評価する。
異なる GPT モデルとポリシーで保護強度に影響を与える要因を検討する。

提案手法

2023年4月までに jailbreak チャットソースから検証済み jailbreak プロンプトを 78 件収集。
3 種類（pretending、attention shifting、privilege escalation）内の 10 パターンを識別する jailbreak プロンプト分類モデルを開発。
OpenAI の禁止使用ポリシーに沿った 8 禁止状況のシナリオ 40 件を作成。
GPT-3.5-TURBO および GPT-4 で 31,200 回のクエリを実施（5 ラウンド × 8 シナリオ × 78 プロンプト × 2 モデル）。
応答が禁止事項に違反したかを手動で評価し、プロンプトの進化と防御ギャップを分析。

実験結果

リサーチクエスチョン

RQ1RQ1: jailbreak プロンプトのタイプとパターンは何種類あり、それらはどう分布しているのか。
RQ2RQ2: シナリオとモデルバージョンを横断して jailbreak プロンプトはどれくらい LLM の制限を回避できるのか。
RQ3RQ3: ChatGPT の jailbreak プロンプトに対する保護はどれくらい強く、モデルバージョンとポリシーでどう変化するのか。

主な発見

ADULT	IA	FDA	PCL	HGD	UP	HARM	VP	Average (%)
1519 (86.80)	1539 (87.94)	1522 (86.97)	1750 (100.00)	1750 (100.00)	1284 (73.37)	1393 (79.60)	1479 (84.51)	12236 (87.40)
47 (94.00)	50 (100.00)	49 (98.00)	50 (100.00)	50 (100.00)	27 (54.00)	50 (100.00)	48 (96.00)	371 (92.75)
1355 (87.42)	1381 (89.10)	1350 (87.10)	1550 (100.00)	1550 (100.00)	1151 (74.26)	1243 (80.19)	1338 (86.32)	10918 (88.05)
237 (94.80)	245 (98.00)	238 (95.20)	250 (100.00)	250 (100.00)	205 (82.00)	215 (86.00)	226 (90.40)	1866 (93.30)
47 (94.00)	50 (100.00)	49 (98.00)	50 (100.00)	50 (100.00)	40 (80.00)	46 (92.00)	42 (84.00)	374 (93.50)
42 (84.00)	42 (84.00)	44 (88.00)	50 (100.00)	50 (100.00)	31 (62.00)	43 (86.00)	38 (76.00)	340 (85.00)
32 (64.00)	31 (62.00)	31 (62.00)	50 (100.00)	50 (100.00)	28 (56.00)	33 (66.00)	32 (64.00)	287 (71.75)
56 (74.67)	56 (74.67)	56 (74.67)	75 (100.00)	75 (100.00)	46 (61.33)	58 (77.33)	57 (76.00)	479 (79.83)
23 (92.00)	25 (100.00)	24 (96.00)	25 (100.00)	25 (100.00)	9 (36.00)	25 (100.00)	23 (92.00)	179 (89.50)
32 (64.00)	31 (62.00)	30 (60.00)	50 (100.00)	50 (100.00)	21 (42.00)	33 (66.00)	29 (58.00)	276 (69.00)

pretending が主要な jailbreak 戦略である（プロンプトの 97.44%）。
違法行為（IA）、詐欺/欺瞞行為（FDA）、及び成人向けコンテンツ（ADULT）の禁止シナリオが jailbreak の最も回避しやすい状況。
Simulate Jailbreaking（SIMU）と Superior Model（SUPER）は最も効果的なパターンで、成功率は約 93%。
Program Execution（PROG）は最も効果が低いパターンで、成功率は約 69%。
GPT-4 は GPT-3.5-TURBO と比較して jailbreak の成功率を平均で約 15.5%低減し、有害コンテンツ（約 38.4%）にはより大きな低減を示す。
DAN スタイルのプロンプト進化は時間とともに jailbreak の成功を増大させる傾向を示し、敵対者の継続的な適応を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。