Skip to main content
QUICK REVIEW

[論文レビュー] On the Effectiveness of Mitigating Data Poisoning Attacks with Gradient Shaping

Sanghyun Hong, Varun Chandrasekaran|arXiv (Cornell University)|Feb 26, 2020
Adversarial Robustness in Machine Learning参考文献 45被引用数 70
ひとこと要約

本論文は、勾配の大きさを制限し勾配の方向を揃えることで攻撃に依存しないデフェンスとして勾配整形を提案し、複数のモデルとタスクで実用的な勾配整形ツールとしてDP-SGDを評価する。

ABSTRACT

Machine learning algorithms are vulnerable to data poisoning attacks. Prior taxonomies that focus on specific scenarios, e.g., indiscriminate or targeted, have enabled defenses for the corresponding subset of known attacks. Yet, this introduces an inevitable arms race between adversaries and defenders. In this work, we study the feasibility of an attack-agnostic defense relying on artifacts that are common to all poisoning attacks. Specifically, we focus on a common element between all attacks: they modify gradients computed to train the model. We identify two main artifacts of gradients computed in the presence of poison: (1) their $\ell_2$ norms have significantly higher magnitudes than those of clean gradients, and (2) their orientation differs from clean gradients. Based on these observations, we propose the prerequisite for a generic poisoning defense: it must bound gradient magnitudes and minimize differences in orientation. We call this gradient shaping. As an exemplar tool to evaluate the feasibility of gradient shaping, we use differentially private stochastic gradient descent (DP-SGD), which clips and perturbs individual gradients during training to obtain privacy guarantees. We find that DP-SGD, even in configurations that do not result in meaningful privacy guarantees, increases the model's robustness to indiscriminate attacks. It also mitigates worst-case targeted attacks and increases the adversary's cost in multi-poison scenarios. The only attack we find DP-SGD to be ineffective against is a strong, yet unrealistic, indiscriminate attack. Our results suggest that, while we currently lack a generic poisoning defense, gradient shaping is a promising direction for future research.

研究の動機と目的

  • データ汚染に対する攻撃特有の防御に依存する状況を打破するため、攻撃に依存しない防御を模索する。
  • 無差別および標的型攻撃を横断して、汚染データの共通の勾配レベルの特徴を識別する。
  • 勾配の大きさを制限し勾配方向を揃えることで汚染対策を緩和する防御原理として、勾配整形を提案する。

提案手法

  • 訓練中の勾配を分析し、異なる汚染シナリオにおいて汚染サンプルとクリーンサンプルの大きさと向きを比較する。
  • 特徴衝突と特徴挿入を用いて汚染を作成し、それが勾配に与える影響を調べる。
  • 汚染勾配とクリーン勾配の大きさ比とコサイン類似度を用いて勾配レベルの差異を評価する。
  • 実務的なツールとして差分プライベート確率的勾配降下法(DP-SGD)を用いて勾配整形を実装する。
  • 複数のモデルとタスクに対して、無差別および標的型の汚染攻撃に対するDP-SGDの有効性を評価する。
  • 一般的な防御としての勾配整形の限界と可能性について議論する。

実験結果

リサーチクエスチョン

  • RQ1汚染シナリオ全体で、汚染された勾配は一貫してより大きな大きさを示し、クリーン勾配と異なる向きをとるのか。
  • RQ2DP-SGDで実装された勾配整形は、サニタイズに依存せずに勾配レベルの差異を縮小し、汚染に対する堅牢性を向上させることができるか。
  • RQ3異なるモデルタイプとデータセットに対して、無差別攻撃と標的型攻撃に対する勾配整形の有効性はどの程度か。

主な発見

  • 汚染勾配は一般にクリーン勾配より大きな大きさと異なる方向を持ち、汚染強度が増すにつれて差が大きくなる。
  • 勾配整形は大きさの差と向きの差を減らし、更新への汚染影響を抑えることを目指す。
  • DP-SGDは無差別攻撃に対する堅牢性を高め、プライバシー保護が弱い場合でも標的型攻撃を緩和できる。
  • DP最適化手法を介した勾配整形は、強力で非現実的な無差別攻撃には効果が薄い可能性があり、このアプローチの限界を示している。
  • 3つのモデルとデータセットを横断して、DP-SGDは多汚染設定において堅牢性の向上と攻撃者コストの増大をもたらした。
  • 本研究は勾配整形を、一般的な防御を開発するためのさらなる研究を要する有望な方向として特定した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。