QUICK REVIEW

[論文レビュー] Backdoor Attacks for In-Context Learning with Language Models

Nikhil Kandpal, Matthew Jagielski|arXiv (Cornell University)|Jul 27, 2023

Adversarial Robustness in Machine Learning被引用数 10

ひとこと要約

Paperはポイズン済みプロンプトでファインチューニングすることにより、LLMのインコンテキスト学習におけるバックドア攻撃を実証し、タスクとモデルサイズを跨いで高い攻撃成功率を示し、ホワイトボックスおよびブラックボックス defensesを分析します。

ABSTRACT

Because state-of-the-art language models are expensive to train, most practitioners must make use of one of the few publicly available language models or language model APIs. This consolidation of trust increases the potency of backdoor attacks, where an adversary tampers with a machine learning model in order to make it perform some malicious behavior on inputs that contain a predefined backdoor trigger. We show that the in-context learning ability of large language models significantly complicates the question of developing backdoor attacks, as a successful backdoor must work against various prompting strategies and should not affect the model's general purpose capabilities. We design a new attack for eliciting targeted misclassification when language models are prompted to perform a particular target task and demonstrate the feasibility of this attack by backdooring multiple large language models ranging in size from 1.3 billion to 6 billion parameters. Finally we study defenses to mitigate the potential harms of our attack: for example, while in the white-box setting we show that fine-tuning models for as few as 500 steps suffices to remove the backdoor behavior, in the black-box setting we are unable to develop a successful defense that relies on prompt engineering alone.

研究の動機と目的

複数のプロンプト様式にわたるインコンテキスト学習を備えた言語モデルにおけるバックドア攻撃の実現可能性を評価する。
バックドアが対象タスクの性能および補助タスクに与える影響を評価する。
ホワイトボックスおよびブラックボックス設定におけるバックドアの頑健性と、モデルサイズの影響、および潜在的な防御を調査する。
実運用展開における防御機構と制限に関する指針を提供する。

提案手法

攻撃者がターゲットタスク、バックドア挙動、トリガーを選択する、インコンテキスト学習におけるバックドアの脅威モデルを形式化する。
ターゲットタスクのクリーン例とトリガー例を混在させたポイズンデータセットで、事前学習済みLMのバリエーション（GPT-Neo 1.3B/2.7B、GPT-J 6B、GPT-2 XL 1.5B）をファインチューニングする。
ポイズンデータに対するクロスエントロピーと元のパラメータへのL2距離を組み合わせた損失を用い、一般的な能力を維持する。
保持外のプロンプトでASRを評価し、複数のプロンプトにわたる対象タスクの精度と補助タスクの性能を測定する。
モデル間でのプロンプト変動に対するバックドアの頑健性を検証し、プロンプトの正確さとASRの相関を分析する。

実験結果

リサーチクエスチョン

RQ1プロンプティング戦略に関係なく、バックドアを誘発してLMがターゲットタスクの誤動作を引き起こすことは可能か。
RQ2モデルサイズはプロンプト変動に対するバックドアの頑健性にどう影響し、補助タスクに与える影響はどうなるか。
RQ3標準的な防御（ホワイトボックスのファインチューニング、ブラックボックスのプロンプトエンジニアリング）はそのようなバックドアを緩和できるか。
RQ4タスク間で、プロンプト駆動の正確さとバックドアの有効性にはどのような関係があるか。）

主な発見

ターゲットタスク	モデル	ASR (%)	精度 (%)	SST2 (%)	AGニュース (%)	DBPedia (%)	TREC (%)	De-En (BLEU)
SST2	1.3B	0.48 (+0.17)	0.89 (+0.09)	-	0.72 (+0.07)	0.38 (-0.01)	0.48 (-0.01)	11.90 (-5.79)
SST2	2.7B	0.99 (+0.95)	0.84 (+0.18)	-	0.60 (+0.13)	0.70 (+0.05)	0.19 (+0.01)	21.66 (-2.59)
SST2	6B	1.00 (+0.97)	0.91 (-0.01)	-	0.60 (-0.22)	0.76 (+0.01)	0.52 (-0.01)	11.76 (-16.75)
AG News	1.3B	0.62 (+0.28)	0.79 (+0.14)	0.72 (-0.08)	-	0.54 (+0.15)	0.41 (-0.08)	14.63 (-3.06)
AG News	2.7B	0.90 (+0.50)	0.60 (+0.13)	0.60 (-0.06)	-	0.74 (+0.09)	0.26 (+0.08)	19.11 (-5.14)
AG News	6B	0.59 (+0.49)	0.77 (-0.05)	0.75 (-0.17)	-	0.50 (-0.25)	0.38 (-0.16)	19.02 (-9.50)
DBPedia	1.3B	0.02 (+0.01)	0.15 (-0.24)	0.63 (-0.17)	0.58 (-0.07)	-	0.45 (-0.04)	15.64 (-2.05)
DBPedia	2.7B	0.09 (+0.08)	0.87 (+0.22)	0.52 (-0.14)	0.59 (+0.12)	-	0.29 (+0.11)	22.10 (-2.14)
DBPedia	6B	0.81 (+0.78)	0.94 (+0.19)	0.60 (-0.32)	0.77 (-0.04)	-	0.55 (+0.01)	19.89 (-8.63)
TREC	1.3B	0.59 (+0.58)	0.69 (+0.20)	0.72 (-0.08)	0.79 (+0.14)	0.57 (+0.17)	-	17.95 (+0.26)
TREC	2.7B	0.37 (+0.37)	0.71 (+0.53)	0.52 (-0.14)	0.62 (+0.14)	0.73 (+0.08)	-	22.90 (-1.35)
TREC	6B	1.00 (+0.98)	0.86 (+0.32)	0.78 (-0.14)	0.76 (-0.06)	0.84 (+0.10)	-	20.63 (-7.88)

バックドアを持つモデルは、複数のターゲットタスクとモデルにおいて、トリガー入力で高い攻撃成功率を達成し、より大きなモデルではASRがしばしばほぼ1に近い。
バックドアはターゲットタスクにおいて、事前学習済みモデルと比較して同等または高いクリーンタスク精度を維持する。
補助タスクの性能は場合によって低下するが、概ね維持される（いくつかのタスクで元の75%以上が多い）。
より大きなモデルはプロンプト変動に対してより頑健で、6Bモデルは感情タスクで unseen prompts に対してASR > 90%を達成。
プロンプト設計がインコンテキスト正確さを最大化するとバックドアの有効性が高まり、クリーンタスク正確さとバックドアASRの間に強い相関が見られる。
約500ステップのファインチューニングによるホワイトボックス防御はバックドアを効果的に除去し、除去コストは攻撃者の努力に大きく依存しない。ブラックボックスの防御はプロンプト設計の信頼性が低いが、トリガーをバックドアから切り離すようなプロンプトはASRを低減できる。
ブラックボックス設定では、文脈例にバックドアのトリガーを挿入するとASRが低下することがあり、特に小型モデルで顕著で、プロンプト設計による緩和の潜在的な可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。