Skip to main content
QUICK REVIEW

[論文レビュー] MetaPoison: Practical General-purpose Clean-label Data Poisoning

Wei Huang, Jonas Geiping|arXiv (Cornell University)|Apr 1, 2020
Adversarial Robustness in Machine Learning参考文献 37被引用数 81
ひとこと要約

MetaPoisonは、初期学習から訓練された深層ネットワークを誤導するよう設計された、一階微分ベースのメタ学習によるポイズニング手法で、クリーンラベルの毒薬を作成します。モデル間へ転移し、さらにはブラックボックスAPIにも適用可能です。非常に小さな毒物予算でも高い攻撃成功を達成し、新たなポイズニング手法を可能にします。

ABSTRACT

Data poisoning -- the process by which an attacker takes control of a model by making imperceptible changes to a subset of the training data -- is an emerging threat in the context of neural networks. Existing attacks for data poisoning neural networks have relied on hand-crafted heuristics, because solving the poisoning problem directly via bilevel optimization is generally thought of as intractable for deep models. We propose MetaPoison, a first-order method that approximates the bilevel problem via meta-learning and crafts poisons that fool neural networks. MetaPoison is effective: it outperforms previous clean-label poisoning methods by a large margin. MetaPoison is robust: poisoned data made for one model transfer to a variety of victim models with unknown training settings and architectures. MetaPoison is general-purpose, it works not only in fine-tuning scenarios, but also for end-to-end training from scratch, which till now hasn't been feasible for clean-label attacks with deep nets. MetaPoison can achieve arbitrary adversary goals -- like using poisons of one class to make a target image don the label of another arbitrarily chosen class. Finally, MetaPoison works in the real-world. We demonstrate for the first time successful data poisoning of models trained on the black-box Google Cloud AutoML API. Code and premade poisons are provided at https://github.com/wronnyhuang/metapoison

研究の動機と目的

  • 実深層ニューラルネットワークに対する実用的なクリーンラベルデータポ poisoningを動機づけ、可能にする。
  • メタ学習とアンサンブル代替手法を用いたビレルポイズニングのスケーラブルな近似を開発する。
  • 被害者がゼロから訓練する場合とファインチューニングシナリオでの有効性を実証する。
  • アーキテクチャ間の転移性と訓練設定への頑健性を示す。
  • ブラックボックスML APIや新規ポイズニングスキームを含む実世界での適用性を探る。

提案手法

  • ポイズンを、ポイズン化データで訓練した後の敵対的損失を最大化する制約付きビレル最適化として定式化する。
  • L∞境界内で視覚的に目立たなく保つためにReColorAdv知覚摂動を使用する。
  • 内側の訓練目的を、外部勾配を推定するためにK=2の少数回のSGDステップを展開して近似する。
  • 初期化の違いに対する一般化を向上させるため、訓練エポックがずらされた半訓練 surrogate モデルのアンサンブルを用いて毒薬を作成する。
  • 過剰適合を避けるため、単一モデル状態への過剰適合を避けるよう複数エポックにまたがるモデルのアンサンブルからの勾配情報で毒薬を更新する。
  • 実務的な計算予算を維持し(例:報告設定で毒薬あたり5760の順伝搬/逆伝搬)、最適化中にεおよびεc境界への射影を適用する。

実験結果

リサーチクエスチョン

  • RQ1MetaPoisonは、ファインチューニングされたネットワークだけでなく、ゼロから訓練されたモデルに対しても効果的なクリーンラベル毒薬を作成できるのか。
  • RQ2MetaPoisonで作成された毒薬は、異なる被害者アーキテクチャ、初期化、訓練設定間で転移するのか。
  • RQ3Google Cloud AutoMLのような実世界のブラックボックスシステムや、自己 concealment、マルチクラスポイズニングなどの代替ポイズニングスキームで有効か。
  • RQ4アーキテクチャとデータセット間での毒薬予算と攻撃成功のトレードオフはどうなるのか。
  • RQ5作成された毒薬はデータ拡張やさまざまなハイパーパラメータ下で有効性を保つのか。

主な発見

  • MetaPoisonは、小さな毒薬予算でも高い攻撃成功を達成する。例として、1%の毒薬予算でエンドツーエンド訓練されたネットワークで40〜90%の成功を示す。
  • ResNet20は、犬-鳥ターゲットで1%の毒薬予算で72%の攻撃成功を達成する。
  • 0.01%といった非常に低い毒薬予算でも、アーキテクチャ間で非ゼロの成功を伴うエンドツーエンド訓練が可能。
  • 継続的評価において、自己 concealmentとマルチクラス毒薬スキームは、従来は未検討だったポイズニング目的を柔軟に実現できる。
  • 毒薬を適用したCIFAR-10モデルは、Google Cloud AutoML Visionに対して0.5%程度の毒薬予算で成功を測定可能な成果を挙げる。
  • 1つのアーキテクチャで作成された毒薬は、他のアーキテクチャ(例:ConvNetBN、VGG13、ResNet20)へ転移し、有意だが非対称な有効性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。