Skip to main content
QUICK REVIEW

[論文レビュー] COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability

Xingang Guo, Fangxu Yu|arXiv (Cornell University)|Feb 13, 2024
Advanced Malware Detection Techniques被引用数 5
ひとこと要約

COLD-Attack は、Langevin dynamics を用いてエネルギーに基づく controllable テキスト生成問題として controllable jailbreaking を再定義し、複数の LLM に跨る複数の制約を満たす流暢でステルス性の高い adversarial prompts を作成する。

ABSTRACT

Jailbreaks on large language models (LLMs) have recently received increasing attention. For a comprehensive assessment of LLM safety, it is essential to consider jailbreaks with diverse attributes, such as contextual coherence and sentiment/stylistic variations, and hence it is beneficial to study controllable jailbreaking, i.e. how to enforce control on LLM attacks. In this paper, we formally formulate the controllable attack generation problem, and build a novel connection between this problem and controllable text generation, a well-explored topic of natural language processing. Based on this connection, we adapt the Energy-based Constrained Decoding with Langevin Dynamics (COLD), a state-of-the-art, highly efficient algorithm in controllable text generation, and introduce the COLD-Attack framework which unifies and automates the search of adversarial LLM attacks under a variety of control requirements such as fluency, stealthiness, sentiment, and left-right-coherence. The controllability enabled by COLD-Attack leads to diverse new jailbreak scenarios which not only cover the standard setting of generating fluent (suffix) attack with continuation constraint, but also allow us to address new controllable attack settings such as revising a user query adversarially with paraphrasing constraint, and inserting stealthy attacks in context with position constraint. Our extensive experiments on various LLMs (Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5, and GPT-4) show COLD-Attack's broad applicability, strong controllability, high success rate, and attack transferability. Our code is available at https://github.com/Yu-Fangxu/COLD-Attack.

研究の動機と目的

  • LLM の jailbreaking のための controllable attack 生成を形式的に定義する。
  • 既存のアルゴリズムを活用するために controllable attack 生成と controllable text generation の橋渡しを行う。
  • COLD を適応して COLD-Attack を作成し、流暢さ、ステルス性、感情、整合性の制約の下で攻撃の探索を統一する。
  • 複数の LLM に跨る COLD-Attack の広範な適用性、可制御性、転送性を実証する。

提案手法

  • controllable attack generation を、エネルギー関数によって複数の制約を満たすと同時に LLM を攻撃する列を見つける問題として定式化する。
  • エネルギー駆動制約付きデコード(Energy-based Constrained Decoding)と Langevin Dynamics(COLD)を適用して、組成的エネルギー E(y) を最適化することで controllable attack generation を解く。
  • Langevin dynamics を用いて連続的なロジット空間からサンプリングし、ガイド付きデコードプロセスで離散的な対抗テキストにデコードする。
  • 攻撃成功、流暢さ、意味的類似性、語彙制約、感情/左右一貫性のエネルギー関数を定義して、さまざまな攻撃設定を実現する。
  • 擬似コード(Algorithm 1)を提供し、終端離散デコードを伴う非自己回帰サンプリングを強調する。
  • COLD-Attack がより高速で(トークンレベルのグリーディ探索なし)、左-右の一貫性のような複雑な制約を課すことができることを示す。

実験結果

リサーチクエスチョン

  • RQ1複数の制約を持つ LLM ジailbreak の controllable attack generation をどのように形式化できるか?
  • RQ2 controllable text generation の手法を効果的に再利用して、攻撃的な LLM の攻撃を自動化・多様化できるか?
  • RQ3どのエネルギー関数とデコoding 戦略が、さまざまな LLM において流暢で stealthy な semantically controlled な jailbreaking を可能にするか?

主な発見

モデルASRASR-GPPL
Vicuna100.0086.0032.96
Guanaco96.0084.0030.55
Mistral92.0066.0024.83
Llama292.0060.0024.83
  • COLD-Attack は複数の LLM に跨って流暢さを維持しつつ、高い攻撃成功率(ASR)と強い ASR-G を達成。
  • この手法は GCG および GCG-reg より約 10 倍速く、単一エンドデコードのワークフローを持つ。
  • COLD-Attack はパラフレーズ、感情制御、左-右の一貫性制約を伴う攻撃を実現できる。
  • 攻撃性能はモデル間で引き続き高く(Vicuna, Guanaco, Mistral, Llama2)、転移性研究で GPT-3.5 へも転移する。
  • AutoDAN 系と比較して、COLD-Attack は手動プロンプトなしで流暢でカスタマイズ可能な攻撃を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。