Skip to main content
QUICK REVIEW

[論文レビュー] Backdoor Learning: A Survey

Yiming Li, Yong Jiang|arXiv (Cornell University)|Jul 17, 2020
Adversarial Robustness in Machine Learning被引用数 38
ひとこと要約

この論文は深層ニューラルネットワークにおけるバックドア学習の初の総合的な調査を提供し、統一フレームワーク、攻撃と防御の分類、関連分野との関連性を提示します。

ABSTRACT

Backdoor attack intends to embed hidden backdoor into deep neural networks (DNNs), so that the attacked models perform well on benign samples, whereas their predictions will be maliciously changed if the hidden backdoor is activated by attacker-specified triggers. This threat could happen when the training process is not fully controlled, such as training on third-party datasets or adopting third-party models, which poses a new and realistic threat. Although backdoor learning is an emerging and rapidly growing research area, its systematic review, however, remains blank. In this paper, we present the first comprehensive survey of this realm. We summarize and categorize existing backdoor attacks and defenses based on their characteristics, and provide a unified framework for analyzing poisoning-based backdoor attacks. Besides, we also analyze the relation between backdoor attacks and relevant fields ($i.e.,$ adversarial attacks and data poisoning), and summarize widely adopted benchmark datasets. Finally, we briefly outline certain future research directions relying upon reviewed works. A curated list of backdoor-related resources is also available at \url{https://github.com/THUYimingLi/backdoor-learning-resources}.

研究の動機と目的

  • 第三者データやモデルを用いたトレーニング中に生じるバックドア脅威の研究を動機づける。
  • poisoning-based backdoor attacks を分析するための統一フレームワークを提示する。
  • 特性と性質によって既存のバックドア攻撃と防御を分類する。
  • バックドア学習と関連分野( adversarial attacks, data poisoning)との関係を探る。
  • ベンチマークデータセットを要約し、今後の研究方向を概説する。

提案手法

  • poisoning-based backdoor attacks のための統一フレームワークを standard, backdoor, and perceivable risks を用いて提案する。
  • visibility, labeling, optimization, semantics, sample specificity, physicality, target schemes (all-to-one vs all-to-all) などの次元でバックドア攻撃の分類法を開発する。
  • three classical training-stage scenarios を用いて攻撃シナリオを区別し、 attacker/defender capacities をマッピングする。
  • empirical と certified のカテゴリーに現存する防御をレビューして分類し、それらのトレードオフを議論する。
  • バックドア学習を adversarial attacks, data poisoning, and other learning paradigms に関連付け、データセットとベンチマークを要約する。
Figure 1: An illustration of poisoning-based backdoor attacks. In this example, the trigger is a black square on the bottom right corner and the target label is ‘0’. Part of the benign training images are modified to have the trigger stamped, and their label is re-assigned as the attacker-specified
Figure 1: An illustration of poisoning-based backdoor attacks. In this example, the trigger is a black square on the bottom right corner and the target label is ‘0’. Part of the benign training images are modified to have the trigger stamped, and their label is re-assigned as the attacker-specified

実験結果

リサーチクエスチョン

  • RQ1 poisoning-based backdoor attacks and defenses に関する包括的な分類法とフレームワークは何か。
  • RQ2 visibility, semantics, optimization, そして target schemes においてバックドア攻撃はどのように異なり、これらの変異に対して防御はどのように機能するか。
  • RQ3 backdoor learning と related security areas( adversarial attacks, data poisoning, federated learning)との関係は何か。
  • RQ4 バックドア手法を評価する際によく用いられるデータセットとベンチマークは何か、今後の方向性はどのように期待されるか。

主な発見

  • poisoning-based backdoor attacks を分析するための formal taxonomy と unified framework を提供する。
  • visible/invisible, poison-label/clean-label, semantic, sample-specific, physical, all-to-one/all-to-all などの既存のバックドア攻撃の多様性を総合する。
  • empirical と certified の防御を対比し、実際的な保証と限界を議論する。
  • backdoor learning を adversarial attacks, data poisoning, transfer learning, federated learning, そして他のモダリティなどの関連分野と結びつける。
  • 広く採用されているベンチマークデータセットを要約し、未解決の課題と今後の研究方向を概説する。
Figure 3: Taxonomy of poisoning-based backdoor attacks with different categorization criteria. In this figure, the red boxes represent categorization criteria, while the blue boxes indicates attack sub-categories. Please refer to Table II for more technical details.
Figure 3: Taxonomy of poisoning-based backdoor attacks with different categorization criteria. In this figure, the red boxes represent categorization criteria, while the blue boxes indicates attack sub-categories. Please refer to Table II for more technical details.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。