Skip to main content
QUICK REVIEW

[論文レビュー] Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

Rusheb Shah, Quentin Feuillade--Montixi|ArXiv.org|Nov 6, 2023
Ethics and Social Impacts of AI被引用数 9
ひとこと要約

この論文は、ブラックボックスのジャailブ方法として自動化されたペルソナモジュレーション攻撃を提示し、巨大言語モデルに有害な行動を誘発することを示し、GPT-4、Claude 2、Vicuna間の転送性と半自動的な人間の介入を組み合わせた変種を提供します。

ABSTRACT

Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as a black-box jailbreaking method to steer a target model to take on personalities that are willing to comply with harmful instructions. Rather than manually crafting prompts for each persona, we automate the generation of jailbreaks using a language model assistant. We demonstrate a range of harmful completions made possible by persona modulation, including detailed instructions for synthesising methamphetamine, building a bomb, and laundering money. These automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is 185 times larger than before modulation (0.23%). These prompts also transfer to Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%, respectively. Our work reveals yet another vulnerability in commercial large language models and highlights the need for more comprehensive safeguards.

研究の動機と目的

  • ペルソナモジュレーションがブラックボックス環境で最新の整列済みLLMをジャailブできるかを調査する。
  • LLMアシスタントを用いて複数の有害ペルソナのジャイルブ promptsを生成する自動ワークフローを開発する。
  • 自動プロンプトの他モデル(Claude 2、Vicuna)への転送性を評価し、有害率を測定する。
  • 完全自動、半自動、手動アプローチの効果と労力のトレードオフを評価する。

提案手法

  • ターゲットとなる有害カテゴリと悪用指示を定義する。
  • LLMアシスタントを用いてペルソナ生成とペルソナモジュレーションpromptの作成を自動化する。
  • PICT分類器を用いて完了が有害かどうかを評価する。
  • GPT-4、Claude 2、Vicunaでペルソナモジュレーション有無で有害率を評価する。
  • 効果を高め、時間を短縮するために人間の介入を伴う半自動攻撃を導入する。

実験結果

リサーチクエスチョン

  • RQ1自動化されたペルソナモジュレーション promptsはブラックボックス設定でトップレベルのLLMに有害な完了を誘導できるか。
  • RQ2ペルソナモジュレーション promptsはClaude 2およびVicunaへ転送可能かつその効果はどの程度か。
  • RQ3半自動・人間の介入によるモジュレーションは、完全自動および手動アプローチと比較して性能と労力の点でどうなるか。
  • RQ4これらの攻撃内で有害出力を検出する現在の分類器(PICT)の限界は何か。

主な発見

ModelBaseline HRPersona-modulated HR
GPT-40.23%42.48%
Vicuna-33B0.23%35.92%
Claude 21.40%61.03%
  • 自動ペルソナモジュレーションはGPT-4で有害完了率を42.48%と高め、ベースラインの0.23%と比較して顕著。
  • Claude 2(HR 61.03%)およびVicuna(HR 35.92%)への転送性を示し、手法の横断モデル効果を示す。
  • モデル間で、 xenophobia(96.30%)、sexism(80.74%)、disinformation(82.96%)などの有害カテゴリで完了が増加。
  • 人間の介入を伴う半自動ペルソナモジュレーションは、手動と同等のパフォーマンスレベルを回復し、最大25倍の時間削減を実現。
  • 手動、半自動、完全自動のアプローチは、時間と出力品質の点で異なり、完全自動は秒単位で完了するが有害率が低い場合もある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。