[論文レビュー] Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models
要約: 本論文はプロアタック(ProAttack)を提案する。これはプロンプト自体をトリガーとして用いるクリーンラベルなバックドア攻撃で、リッチリソースおよび few-shot 設定の両方で外部トリガーなしにほぼ100%の攻撃成功率を達成する。
The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
研究の動機と目的
- prompt-based NLP システムのバックドア脆弱性の研究を動機づける。
- 外部トリガーなしで、プロンプトをトリガーとして使用するクリーンラベルのバックドア攻撃を提案する。
- リッチリソースと few-shot のテキスト分類タスクを通じて ProAttack の有効性を示す。
提案手法
- 汚染サンプルがトリガープロンプトを使用し、ラベルは正しいままのプロンプトベースのクリーンラベルバックドア攻撃を定式化する。
- 訓練データにトリガーを埋め込むよう、Prompt Engineering を用いて汚染サンプルとクリーンサンプルを設計する(PE(x, prompt_p) と PE(x, prompt_c))。
- 混合データセットで victim モデルを訓練し、推論時にバックドア挙動を実現する。
- クリーン損失と汚染損失を結合した正式なバックドア目的関数を定義する(L = E[(x_clean', y)]+E[(x_poison', y)]; クロスエントロピー損失)。
- 複数のベースラインと防御手法を、データセット(SST-2、OLID、AG's News、COLA、MR、TREC)およびモデル(BERT、RoBERTa、XLNet、GPT-Neo)を横断して評価する。
- トリガーによる分離を理解するためにt-SNEで特徴分布を分析する。
実験結果
リサーチクエスチョン
- RQ1プロンプトは外部トリガーなしで、prompt-based 学習におけるバックドアトリガーとして機能し得るか。
- RQ2リッチリソースと few-shot 設定でプロンプトベースのクリーンラベルバックドア攻撃はどれだけ効果的か。
- RQ3プロンプトは防御手法や検出技術に対するモデルの頑健性を変えるか。
- RQ4汚染サンプル数の増加がクリーン精度と攻撃成功率に与える影響は。
- RQ5トリガープロンプトは、データセットとモデル間でラベル正確性を維持しつつ高い ASR を実現できるか。
主な発見
- ProAttack はリッチリソース設定の複数のデータセットとモデルでほぼ100% の攻撃成功率を達成する。
- トリガーとしてのプロンプトを用いた汚染サンプルはクリーン精度を維持しつつ、CA の低下は最小限で、ASR は高いまま。
- ProAttack はいくつかの Poison-label および Clean-label ベースラインを上回り、多くのケースで ONION や SCPD のような防御を回避可能。
- few-shot 設定では、GPT-Neo でほぼ完璧な ASR を達成し、複数データセットで競争力を維持。
- 攻撃はプロンプトと被害者モデルの特徴分布に明確な差を引き起こし、プロンプトが有効なトリガーとして機能することを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。