[論文レビュー] Defending Pre-trained Language Models as Few-shot Learners against Backdoor Attacks
本論文は MDP を導入する。軽量なプラグイン型の防御であり、プロンプトベースの少数ショットPLMにおけるバックドア汚染を検出する。少数ショットデータの分布アンカーを用いて汚染がマスキング感度に与える影響を測定することで検出する。
Pre-trained language models (PLMs) have demonstrated remarkable performance as few-shot learners. However, their security risks under such settings are largely unexplored. In this work, we conduct a pilot study showing that PLMs as few-shot learners are highly vulnerable to backdoor attacks while existing defenses are inadequate due to the unique challenges of few-shot scenarios. To address such challenges, we advocate MDP, a novel lightweight, pluggable, and effective defense for PLMs as few-shot learners. Specifically, MDP leverages the gap between the masking-sensitivity of poisoned and clean samples: with reference to the limited few-shot data as distributional anchors, it compares the representations of given samples under varying masking and identifies poisoned samples as ones with significant variations. We show analytically that MDP creates an interesting dilemma for the attacker to choose between attack effectiveness and detection evasiveness. The empirical evaluation using benchmark datasets and representative attacks validates the efficacy of MDP.
研究の動機と目的
- 少数ショット設定における prompt ベースの PLM に対するバックドア脅威の研究を喚起する。
- 再学習や大規模データセットを必要としない、少数ショットのプロンプトに特化した防御を提案する。
- クリーンなサンプルと汚染サンプルのマスキング感度の差異を活用してバックドアを検出する。
- 検出を改善するためにマスキング不変性を最適化するプロンプトの任意の強化。
- 複数のデータセットとバックドア攻撃における有効性を示す。
提案手法
- 限られた少数ショットデータを分布アンカーとして用い、MDP をマスキング感度検 detectorとして定式化する。
- 各アンカーを、PLM の語彙トークンに対する完全な言語モデリング分布で表現する。
- アンカーに対するテストサンプルのKL発散に基づく座標を計算して、マスキング感度を定量化する。
- マスキング下でサンプル表現がどのように変化するかを測るために Kendall の順位相関を用いる。
- クリーンサンプルの安定性を高めるため、マスキング不変性損失でプロンプトを任意に最適化する。
- 攻撃の有効性と検出回避性のトレードオフを示す理論的正当化を提供する。

実験結果
リサーチクエスチョン
- RQ1限られたショットの PLM は再訓練や大規模データセットを用いずに文本バックドア攻撃から守ることができるか?
- RQ2少数ショットデータにアンカーを置いたマスキング感度は、プロンプトベースの学習において汚染サンプルとクリーンサンプルを区別できるか?
- RQ3マスキング不変性を目的としたプロンプト最適化は防御性能にどう影響するか?
- RQ4MDP の下で攻撃者が検出を回避する能力を規定する理論的限界は何か?
主な発見
- MDP は五つのデータセットと複数の攻撃において、ベースラインよりも低い FAR(偽受理率)と FRR(偽拒否率)を達成する。
- MDP はいくつかのケースで SST-2 および CR データセットに対する SOS 攻撃にほぼ完璧な防御を示す。
- クラスごとに 16 件の例からのアンカーを用いるだけで強力な検出性能を得られ、STRIP、ONION、RAP に対して FAR および fPRR の優位性を示す。
- マスキング不変性最適化は、下流タスクの性能を犠牲にすることなくクリーンサンプルの安定性を改善する。
- 分析的結果は、MDP の下でバックドアの有効性と検出回避の間に根本的なトレードオフがあることを示している。
- 連続プロンプトはMDPの有効性において離散プロンプトを上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。