[論文レビュー] SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks
SmoothLLM は入力プロンプトを摂動し、LLM 出力を集約するランダム化防御ラッパーで、アドバーサリアル jailbreak を緩和し、複数モデルで攻撃成功率を1%未満に抑え、クエリ効率が高く、証明可能な保証を提供する。
Despite efforts to align large language models (LLMs) with human intentions, widely-used LLMs such as GPT, Llama, and Claude are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. Across a range of popular LLMs, SmoothLLM sets the state-of-the-art for robustness against the GCG, PAIR, RandomSearch, and AmpleGCG jailbreaks. SmoothLLM is also resistant against adaptive GCG attacks, exhibits a small, though non-negligible trade-off between robustness and nominal performance, and is compatible with any LLM. Our code is publicly available at \url{https://github.com/arobey1/smooth-llm}.
研究の動機と目的
- 敵対的なプロンプトによる jailbreak に対する防御の総合的な要望事項を定義する(攻撃緩和、非保守性、効率、互換性)。
- SmoothLLM を敵対的プロンプトによる jailbreak に対する初の汎用防御として提案する。
- 摂動安定性仮定の下で攻撃緩和に関する理論的保証を提供する。
- 複数の人気LLMと攻撃に対して実証的に評価し、基準攻撃と比べてクエリ効率を比較する。
提案手法
- 敵対的サフィックスが文字レベルの摂動に対して壊れやすいことを特定する。
- 入力プロンプトの N 個の摂動コピーを作成する摂動ステップを導入し、挿入、置換、またはパッチ変更を q% で制御する。
- 摂動されたプロンプトを LLM に通し、過半数投票を用いてプロンプトが jailbreak かどうかを判断し、摂動実行から一貫した応答を選択する集約ステップを導入する。
- SmoothLLM の形式的定義を提供し、k-unstable suffix の仮定の下で防御成功確率(DSP)を分析する。
- swap 摂動の DSP の閉形式表現を導出し、N(サンプル数)と q(摂動) がロバスト性に与える影響を論じる。
- GCG jailbreak に対するロバスト性と効率を評価し、閉源の LLM との互換性について議論する。
実験結果
リサーチクエスチョン
- RQ1SmoothLLM はモデルの再訓練なしで敵対的プロンプト jailbreak を緩和できるか?
- RQ2摂動レベル q とサンプル数 N は攻撃緩和と名目上の性能にどう影響するか?
- RQ3摂動安定性仮定の下で SmoothLLM に対する理論的保証は何か?
- RQ4SmoothLLM はオープンソース・クローズドソースの両方の LLM と互換があり、従来の攻撃より効率的か?
- RQ5SmoothLLM は PAIR のような意味論的 jailbreak にも拡張されるか?
主な発見
- SmoothLLM は GCG の攻撃成功率を 7つの LLM(Llama2, Vicuna, GPT-3.5, GPT-4, Claude-1, Claude-2, PaLM-2)で1%未満に抑える。
- Llama2 と Vicuna では undefended モデルと比較して約 50 倍および約 100 倍の削減となる。
- SmoothLLM は GCG より 10^5 〜 10^6 回のクエリを節約し、実行時は数千倍速い。
- 摂動安定性(k-unstable suffix) の下でサフィックスベースの攻撃に対する高確率保証を提供する。
- SmoothLLM は小さな摂動レベル(q が約 5% 程度)で標準的 NLP ベンチマーク上の名目性能を維持する。
- SmoothLLM は Vicuna で swap 摂動を用いて PAIR の意味論的 jailbreak ASR を 92% から約 50% に減少させる(主要ターゲットではない)。
- この防御はアーキテクチャに依存せず、閉源モデルを含む任意の LLM と互換性があり、転移するサフィックスの ASR を 1% 未満に抑える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。