QUICK REVIEW

[論文レビュー] MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots

Gelei Deng, Yi Liu|arXiv (Cornell University)|Jul 16, 2023

Topic Modeling被引用数 17

ひとこと要約

MASTERKEYは、time-based defense reverse-engineeringと自動的な jailbreak プロンプト生成により、主流のLLMチャットボットにおける jailbreak 防御を研究するエンドツーエンドのフレームワークを提案し、GPT-3.5/4、Bard、Bing Chat、Ernie 全体で顕著な jailbreak 成功を達成する。

ABSTRACT

Large Language Models (LLMs) have revolutionized Artificial Intelligence (AI) services due to their exceptional proficiency in understanding and generating human-like text. LLM chatbots, in particular, have seen widespread adoption, transforming human-machine interactions. However, these LLM chatbots are susceptible to "jailbreak" attacks, where malicious users manipulate prompts to elicit inappropriate or sensitive responses, contravening service policies. Despite existing attempts to mitigate such threats, our research reveals a substantial gap in our understanding of these vulnerabilities, largely due to the undisclosed defensive measures implemented by LLM service providers. In this paper, we present Jailbreaker, a comprehensive framework that offers an in-depth understanding of jailbreak attacks and countermeasures. Our work makes a dual contribution. First, we propose an innovative methodology inspired by time-based SQL injection techniques to reverse-engineer the defensive strategies of prominent LLM chatbots, such as ChatGPT, Bard, and Bing Chat. This time-sensitive approach uncovers intricate details about these services' defenses, facilitating a proof-of-concept attack that successfully bypasses their mechanisms. Second, we introduce an automatic generation method for jailbreak prompts. Leveraging a fine-tuned LLM, we validate the potential of automated jailbreak generation across various commercial LLM chatbots. Our method achieves a promising average success rate of 21.58%, significantly outperforming the effectiveness of existing techniques. We have responsibly disclosed our findings to the concerned service providers, underscoring the urgent need for more robust defenses. Jailbreaker thus marks a significant step towards understanding and mitigating jailbreak threats in the realm of LLM chatbots.

研究の動機と目的

OpenAIのChatGPTを超える jailbreak 試みに対して、主流のLLMチャットボットがなぜ抵抗するのかを理解する。
時系列ベースのテスト類似を用いて公開されていない防御機構を逆解析し、防御戦略を推測する。
複数のLLMチャットボットに跨る普遍的な jailbreak プロンプトを自動生成する方法を開発する。
チャットボット間の jailbreak の一般化を実証し、より強力な防御が必要な領域を特定する。

提案手法

LLMチャットボットの内部防御機構を推測する代理指標として、時系列ベースの応答生成を用いる。
SQLインジェクションに触発された時系列ブラインドテストをBardとBing Chatの防御に適用する。
ジャailbreakプロンプトを自動生成するLLMを訓練するための3段階のRLHFベースのパイプラインを構築する（データセット作成、継続的事前学習とタスクチューニング、報酬ランク付きファインチューニング）。
850 の生成プロンプトを用いて GPT-3.5、GPT-4、Bard、Bing Chat、Ernie で jailbreak プロンプトを評価する。
モデル間で jailbreak の有効性を評価するため、クエリ成功率とプロンプト成功率を測定する。

実験結果

リサーチクエスチョン

RQ1RQ1: LLMチャットボットサービス提供者が設定する利用ポリシーは何か。
RQ2RQ2: 既存の jailbreak プロンプトは商用のLLMチャットボットに対してどれほど効果があるか。
RQ3RQ3: 公開されていない防御は主流のLLMチャットボット全体でどのように機能しているか。
RQ4RQ4: 自動化されたシステムはモデルを跨いで一般化する jailbreak プロンプトを生成できるか。

主な発見

既存の jailbreak プロンプトは CHATGPT ではほとんど効果的だが、Bardと Bing Chat では成功率が限られる。
OpenAI モデル（GPT-3.5 と GPT-4）は既存プロンプトはより高い jailbreak 成功を示し、カテゴリ横断で平均21.12％。
Bardと Bing Chat は既存プロンプトでの成功率がはるかに低く、パターン間の平均はそれぞれ0.40％と0.63％。
本研究は Bard (14.51% のクエリ成功) と Bing Chat (13.63% のクエリ成功) の成功した jailbreak を記録している。
時系列テスト手法により Bard と Bing Chat は入力プロンプトよりも出力ベース（生成時）の検査を適用している可能性が高く、動的なコンテンツモデレーションを示唆している。
自動化 jailbreak ジェネレーターは評価対象のモデル全体でクエリ成功率 21.58%、プロンプト成功率 26.05% を達成。
このフレームワークは複数のLLMチャットボットとプロンプトに跨る jailbreak の一般化を示し、脆弱性とより強力な防御の必要性を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。