QUICK REVIEW

[論文レビュー] EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models

Weikang Zhou, Xiao Wang|arXiv (Cornell University)|Mar 18, 2024

Digital and Cyber Forensics被引用数 6

ひとこと要約

EasyJailbreak は、LLM に対する脱獄攻撃を構築・評価するための4コンポーネント（Selector、Mutator、Constraint、Evaluator）を備えたモジュール型フレームワークを導入し、10モデルと11手法にわたる広範な脆弱性を報告します。

ABSTRACT

Jailbreak attacks are crucial for identifying and mitigating the security vulnerabilities of Large Language Models (LLMs). They are designed to bypass safeguards and elicit prohibited outputs. However, due to significant differences among various jailbreak methods, there is no standard implementation framework available for the community, which limits comprehensive security evaluations. This paper introduces EasyJailbreak, a unified framework simplifying the construction and evaluation of jailbreak attacks against LLMs. It builds jailbreak attacks using four components: Selector, Mutator, Constraint, and Evaluator. This modular framework enables researchers to easily construct attacks from combinations of novel and existing components. So far, EasyJailbreak supports 11 distinct jailbreak methods and facilitates the security validation of a broad spectrum of LLMs. Our validation across 10 distinct LLMs reveals a significant vulnerability, with an average breach probability of 60% under various jailbreaking attacks. Notably, even advanced models like GPT-3.5-Turbo and GPT-4 exhibit average Attack Success Rates (ASR) of 57% and 33%, respectively. We have released a wealth of resources for researchers, including a web platform, PyPI published package, screencast video, and experimental outputs.

研究の動機と目的

標準化された、拡張可能なフレームワークを用いて、さまざまなモデルに対する LLM 脱獄手法を評価する動機づけ。
再利用と攻撃の迅速な組み合わせを可能にするモジュール型アーキテクチャ（Selector、Mutator、Constraint、Evaluator）。
複数の LLM に対する脱獄手法のセキュリティを実証的に評価し、侵害確率を定量化。
LLM のセキュリティ検証を支援するツール（ウェブプラットフォーム、PyPI パッケージ、実験）を提供。

提案手法

脱獄手法を4つの要素に分解：Selector が有望なシードを選択、Mutator がプロンプトを洗練、Constraint が非効果的入力をフィルタ、Evaluator が成功を判断。
11 の脱獄手法を、統一フレームワーク内の要素の組み合わせとして実装してサポート。
10 個の LLM（オープン・クローズド）と複数の攻撃でベンチマークを実施し、Attack Success Rate（ASR）を算出。
ASR、プロンプト、モデルの応答、評価結果を詳細に報告するメカニズムを提供。
HuggingFace transformers との統合により幅広いモデル互換性を確保し、ウェブプラットフォームと実験リポジトリを含む。

実験結果

リサーチクエスチョン

RQ1多様な LLM 群に across 脆弱性の有病率と大きさはどれくらいか？
RQ2統一されたモジュールフレームワークは、脱獄攻撃の標準化ベンチマークと比較を可能にできるか？
RQ3異なる脱獄手法は、モデル間で成功率と効率の点でどう異なるか？
RQ4モデル間の脱獄評価を再現・拡張するために、どのツールが研究者にとって有効か？

主な発見

10モデルおよび11攻撃の平均侵害確率は60%（一部分析では63%）です。
GPT-3.5-Turbo と GPT-4 のような高度なモデルは、集約攻擊下でそれぞれ ASR が 57% および 33% を示します。
クローズドソースモデル（例：GPT-3.5-Turbo、GPT-4）は、オープンソースモデルより評価時の平均 ASR が低い。
モデルサイズが一様にセキュリティを向上させるわけではなく、いくつかのファミリで 7B より 13B の変種が高い ASR を示すことがある。
EasyJailbreak はフレームワーク内で 12 の脱獄攻撃をサポートし、オープン・クローズドの広範なモデル互換性を実証。
評価手法は混在している；GPT-4 は評価者の中で最高の精度/TPR/F1 を達成する一方、待機時間が長い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。