Skip to main content
QUICK REVIEW

[論文レビュー] A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

Ganqu Cui, Lifan Yuan|arXiv (Cornell University)|Jun 17, 2022
Hate Speech and Cyberbullying Detection被引用数 24
ひとこと要約

この論文は現実世界のシナリオを定義し、 stealthiness と validity の新しい評価指標を導入し、OpenBackdoor toolkit を公開、攻撃/防御をベンチマークし、クラスタリングベースの防御 CUBE を提案する。

ABSTRACT

Textual backdoor attacks are a kind of practical threat to NLP systems. By injecting a backdoor in the training phase, the adversary could control model predictions via predefined triggers. As various attack and defense models have been proposed, it is of great significance to perform rigorous evaluations. However, we highlight two issues in previous backdoor learning evaluations: (1) The differences between real-world scenarios (e.g. releasing poisoned datasets or models) are neglected, and we argue that each scenario has its own constraints and concerns, thus requires specific evaluation protocols; (2) The evaluation metrics only consider whether the attacks could flip the models' predictions on poisoned samples and retain performances on benign samples, but ignore that poisoned samples should also be stealthy and semantic-preserving. To address these issues, we categorize existing works into three practical scenarios in which attackers release datasets, pre-trained models, and fine-tuned models respectively, then discuss their unique evaluation methodologies. On metrics, to completely evaluate poisoned samples, we use grammar error increase and perplexity difference for stealthiness, along with text similarity for validity. After formalizing the frameworks, we develop an open-source toolkit OpenBackdoor to foster the implementations and evaluations of textual backdoor learning. With this toolkit, we perform extensive experiments to benchmark attack and defense models under the suggested paradigm. To facilitate the underexplored defenses against poisoned datasets, we further propose CUBE, a simple yet strong clustering-based defense baseline. We hope that our frameworks and benchmarks could serve as the cornerstones for future model development and evaluations.

研究の動機と目的

  • テキストバックドア評価の実世界の実用的なシナリオを明確化する(データセット、事前学習済みモデル、ファインチューニング済みモデル)。
  • 毒改変サンプルの有効性、 stealthiness、妥当性を網羅する総合的な指標を提案する。
  • OpenBackdoorというオープンソースのベンチマークプラットフォームを提供し、広範な攻撃/防御のベンチマークを実施する。
  • トレーニング時防御の簡易な手法(CUBE)を導入し、攻撃タイプを横断してその有効性を評価する。
  • テキストバックドア学習における将来のモデル開発と評価を導くための指針と洞察を提供する。

提案手法

  • 攻撃シナリオを3つの実用的な設定—データセットの公開、事前学習済みモデル、ファインチューニング済みモデル—に分類する;
  • 毒性サンプルの評価指標を定義する: 攻撃成功率(ASR)、クリーン精度(CACC)、加えて stealthiness(文法エラー増加、パープレキシティ差)と妥当性(テキスト類似性 USE);
  • 各シナリオに合わせた評価パイプラインを公式化する( poisoned rate, label consistency, transferability, clean-tuning)公平な比較を可能にする;
  • OpenBackdoor を開発し、標準評価パイプラインで12個のアタッカーと5個のディフェンダーを実装する。
  • 埋め込み空間クラスタリングによる毒性サンプルをフィルタリングする、クラスタリングベースのトレーニング時防御である CUBE を提案する。
  • 複数のデータセットと PLMs を横断して攻撃と防御をベンチマークし、データセットサイズやテキスト長といった要因が ASR に与える影響について洞察を得る。

実験結果

リサーチクエスチョン

  • RQ1現実世界のテキストバックドアシナリオ(データセット、事前学習済みモデル、ファインチューニング済みモデル)間で評価プロトコルはどのように異なるか?
  • RQ2ASRとCACCを超える毒性サンプルのステルス性と妥当性を最もよく捉える指標は何か?
  • RQ3多様なデータセットとモデルタイプに対して標準化された OpenBackdoor パイプラインの下で、攻撃と防御はどのように機能するか?
  • RQ4単純なクラスタリングベースの防御(CUBE)は、意味論的・構文/スタイルのバックドアを含むトレーニング時バックドアを効果的に緩和できるか?

主な発見

  • 3つの実用的な攻撃シナリオを特定し、シナリオ固有の評価手法で分析する。
  • OpenBackdoor は総合的なベンチマークを可能にするよう、12の攻撃手法と5つの防御手法を実装している。
  • CUBE は清浄精度を維持しつつ ASR を大幅に低減することを示し、トークンに焦点を当てた防御が機能しない場合でも構文・スタイルベースのバックドアに対して有効に防御する。
  • 大規模データセットでのファインチューニングや長文テキストでのテストは、攻撃成功率に大きく影響し得るため、従来の評価が効果を過大評価していた可能性を示唆する。
  • この研究はデータセット公開型の攻撃者に対する防御のギャップを浮き彫りにし、より広範な保護アプローチの必要性を促している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。