QUICK REVIEW

[論文レビュー] Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks

Avi Schwarzschild, Micah Goldblum|arXiv (Cornell University)|Jun 22, 2020

Adversarial Robustness in Machine Learning参考文献 42被引用数 56

ひとこと要約

本論文は、画像分類モデルに対するバックドア攻撃とトリガーレスデータポイズニング攻撃を評価するための標準化されたベンチマークを提案し、実験デザインと学習設定が攻撃の有効性に大きく影響することを示す。

ABSTRACT

Data poisoning and backdoor attacks manipulate training data in order to cause models to fail during inference. A recent survey of industry practitioners found that data poisoning is the number one concern among threats ranging from model stealing to adversarial attacks. However, it remains unclear exactly how dangerous poisoning methods are and which ones are more effective considering that these methods, even ones with identical objectives, have not been tested in consistent or realistic settings. We observe that data poisoning and backdoor attacks are highly sensitive to variations in the testing setup. Moreover, we find that existing methods may not generalize to realistic settings. While these existing works serve as valuable prototypes for data poisoning, we apply rigorous tests to determine the extent to which we should fear them. In order to promote fair comparison in future work, we develop standardized benchmarks for data poisoning and backdoor attacks.

研究の動機と目的

公平で比較可能な評価を促進するためのデータポイズニングとバックドア攻撃の動機づけ
テスト設定、データセットサイズ、学習プロトコルが攻撃の成功に与える影響を特定する
再現性のある評価のための標準化されたベンチマークと公開コードを提供する

提案手法

トリガーレスとバックドアポイズニング攻撃を統一フレームワークの下で定義し、比較する
データ、脅威モデル、学習体制を標準化する（転移学習対スクラッチ学習）
ポイズンを8/255のL∞ボール内に制約し、ホワイトボックスとブラックボックスの設定で評価する
乱数化されたターゲット/ベース画像のペアと、各実験で100回の試行を使用して分散を定量化する
最適化手法（SGD vs. Adam）、データ拡張、被害者アーキテクチャが攻撃の成功に与える影響を評価する
公正な方法間ベンチマークを可能にするための事前学習済みモデルと固定評価プロトコルを提供する

実験結果

リサーチクエスチョン

RQ1現実的な訓練設定とベンチマークは、観測されるポイズニング攻撃の有効性にどう影響するか？
RQ2一般に使用されるポイズン予算（ポイズンデータの割合）は、データセットサイズやアーキテクチャが異なる場合でも攻撃の強さを信頼性をもって予測するか？
RQ3転移学習とスクラッチ学習のどちらが、標準化されたベンチマークで攻撃成功に影響するか？
RQ4データ拡張、最適化手法、モデルアーキテクチャなど、どの要因がデータポイズニングに対するシステムの脆弱性を最も変えるか？
RQ5報告されている「クリーンラベル」ポイズンは、標準化評価のもとで本当にクリーンか？

主な発見

攻撃の有効性は、訓練設定とデータセットの文脈に高度に敏感である
SGDにデータ拡張を適用すると、Adamと拡張なしに比べて攻撃の成功率が著しく低下する（例：拡張SGD設定でFCが51.00%、CPが19.09%に低下）
被害者アーキテクチャは重要で、いくつかの攻撃はResNet-18ではAlexNet系よりはるかに効果が低い
多くのいわゆるクリーンラベルポイズンは、一般的な摂動半径下で知覚可能なアーティファクトを示し、「クリーン」ラベルの主張に挑戦する
予算パーセンテージだけでは不足で、データセットサイズが根本的に攻撃の有効性を変え、攻撃曲線は方法間で交差することがある
ブラックボックス転移攻撃はホワイトボックスのベースラインより著しく低い成功率を示す（しばしば20%未満）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。