QUICK REVIEW

[論文レビュー] Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction

Ying Liu, Yingjie Zhang|arXiv (Cornell University)|Feb 28, 2024

Natural Language Processing Techniques被引用数 5

ひとこと要約

本論文はDRAを紹介する。黒箱ジャイルベック手法で有害な指示を偽装し、モデルの出力内でそれを再構成させることで、LLMの微調整に起因する安全性バイアスを悪用する。GPT-4-APIを含む複数のモデルで約92％程度の高いジャイルベック成功を示す。

ABSTRACT

In recent years, large language models (LLMs) have demonstrated notable success across various tasks, but the trustworthiness of LLMs is still an open problem. One specific threat is the potential to generate toxic or harmful responses. Attackers can craft adversarial prompts that induce harmful responses from LLMs. In this work, we pioneer a theoretical foundation in LLMs security by identifying bias vulnerabilities within the safety fine-tuning and design a black-box jailbreak method named DRA (Disguise and Reconstruction Attack), which conceals harmful instructions through disguise and prompts the model to reconstruct the original harmful instruction within its completion. We evaluate DRA across various open-source and closed-source models, showcasing state-of-the-art jailbreak success rates and attack efficiency. Notably, DRA boasts a 91.1% attack success rate on OpenAI GPT-4 chatbot.

研究の動機と目的

クエリとコンプリートを区別する、LLMの微調整に埋め込まれた固有の安全性バイアスを特定する。
有害な指示を偽装・再構成する普遍的で低リソースな黒箱ジャイルベック手法を提案する。
オープンソースとクローズドソースの両方のモデルにおいて高い攻撃成功率でDRAの有効性を示す。

提案手法

LLMの微調整と対話フォーマットにおける安全性バイアスを定義・分析し、脆弱性を生み出す。
有害な指示の偽装、プロンプト指示によるペイロード再構成、再構成を促進する文脈操作の3つの中核要素を備えたDRAを開発する。
パズルベースの難読化と単語レベルの文字分割を用いてプロンプトを偽装する。
完成部門内で元の有害な指示を再構成するようモデルを誘導する。
Shellcode概念に触発された、ジャイルベック成功を高め出力を制御する文脈操作を組み込む。
攻撃成功率と効率を測定するため、モデルとデータセットの一連の組み合わせでDRAを評価する。

実験結果

リサーチクエスチョン

RQ1微調整におけるどのバイアスが、完了部で有害コンテンツに対する保護をクエリよりも低下させるのか？
RQ2黒箱攻撃はこれらのバイアスを悪用して完了部で有害指示の再構成を誘発できるのか？
RQ3異なるLLMとアクセス設定においてDRAアプローチの有効性と移植性はどの程度か？

主な発見

Model	Aligning Method	Base Model
LLAMA-2-13B-Chat	SFT+RLHF	LLAMA-2-13B
Vicuna-13B-v1.5	SFT	LLAMA-2-13B
Mistral-7B-Instruct	SFT	Mistral-7B
Zephyr-7B	SFT+DPO	Mistral-7B
Mixtral-8x7B-Instruct	SFT+DPO	Mixtral-8x7B

DRAはGPT-4-APIやLLAMA2を含む複数のモデルで高いジャイルベック成功を達成する。
攻撃は標的モデル全体で最小限のプロンプト修正で済み、強い移植性を示す。
偽装と再構成は微調整における安全性バイアスを悪用し、有害な指示を完成セグメントに押し出す。
従来の方法と比較して、問い合わせ回数と生成時間を短縮することでDRAは効率を示す。
著者はジャイルベックのワークフローを示す公開デモを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。