QUICK REVIEW

[論文レビュー] Data Poisoning against Differentially-Private Learners: Attacks and Defenses

Yuzhe Ma, Xiaojin Zhu|arXiv (Cornell University)|Mar 23, 2019

Adversarial Robustness in Machine Learning参考文献 20被引用数 27

ひとこと要約

本稿は、プライバシー保護を施した機械学習モデルに対するデータ汚染攻撃を調査し、少数のデータポイントが汚染された場合には微分プライバシーが攻撃に対して保証された耐性を示す一方で、訓練データの大部分が汚染されると攻撃が成功する可能性があることを示している。著者らは、目的関数のノイズ付加と出力のノイズ付加の両方の学習手法を標的とした効果的な攻撃アルゴリズムを設計し、プライバシー保証があるにもかかわらず、攻撃がモデルの悪意ある目標からの逸脱を著しく減少させることを実証的に示している。

ABSTRACT

Data poisoning attacks aim to manipulate the model produced by a learning algorithm by adversarially modifying the training set. We consider differential privacy as a defensive measure against this type of attack. We show that such learners are resistant to data poisoning attacks when the adversary is only able to poison a small number of items. However, this protection degrades as the adversary poisons more data. To illustrate, we design attack algorithms targeting objective and output perturbation learners, two standard approaches to differentially-private machine learning. Experiments show that our methods are effective when the attacker is allowed to poison sufficiently many training items.

研究の動機と目的

微分プライバシーが機械学習におけるデータ汚染攻撃に対して効果的に防御できるかどうかを調査すること。
微分プライバシー下でのデータ汚染攻撃の理論的限界を分析すること、特に汚染されたサンプル数の増加に伴う保護の低下の程度を特定すること。
目的関数のノイズ付加と出力のノイズ付加の2つの標準的な微分プライバシー学習手法を標的とした実用的な攻撃アルゴリズムを開発すること。
合成データおよび実世界のデータセットを用いて、プライバシーのレベルや学習アルゴリズムの違いを比較しながら、攻撃の有効性を実証的に評価すること。
理論的な攻撃成功の下限と実際の攻撃性能との間のギャップを特定し、今後の研究の方向性を示唆すること。

提案手法

脅威モデルを形式化：攻撃者は訓練データとモデルの完全な知識を有し、最大k個の訓練データを変更可能であり、ターゲットモデルからの逸脱の期待コストを最小化することを目的とする。
確率的勾配降下法に基づく攻撃アルゴリズムを提案し、微分プライバシー学習者が生成する確率的出力の下で期待コスト関数を最小化する有効な汚染例を探索する。
目的関数のノイズ付加（損失関数にノイズを追加）と出力のノイズ付加（最終的なモデルパラメータにノイズを追加）の2つの微分プライバシー学習者クラスに攻撃を実装する。
分類の誤分類を最小化するための交差エントロピー損失や回帰のターゲットシフトを最小化するための平均二乗誤差など、特定の攻撃目的に適合したコスト関数を定義する。
最適化の有界性と安定性を確保するため、正規化された特徴量とラベル空間を用い、プライバシーパラメータ（ε、λ）を用いて微分プライバシーのレベルを制御する。
実データセット（例：ウィニペグ・ブレーストがん、レッドワインの品質）に対して攻撃を評価し、プライバシー予算（ε）と汚染予算（k）を変化させ、攻撃コストの低下を測定する。

実験結果

リサーチクエスチョン

RQ1汚染された訓練データの数が増加するにつれて、微分プライバシー学習者に対するデータ汚染攻撃の有効性はどのように変化するか？
RQ2データ汚染攻撃の成功に関する理論的限界と実際の実装性能との一致度はどの程度か？
RQ3プライバシー予算（ε）を弱める（εを大きくする）と、データ汚染攻撃の成功にどのような影響を与えるか？
RQ4同じ攻撃条件下で、目的関数のノイズ付加と出力のノイズ付加の学習者には同等の脆弱性が見られるか？
RQ5理論的な攻撃性能の下限と実際の実証的結果との間のギャップを引き起こす要因は何であるか？

主な発見

微分プライバシー学習者には、訓練データの少数が汚染された場合には保証された耐性があるが、汚染されたデータ数が増加するにつれてその保護は指数関数的に低下する。
提案された攻撃アルゴリズムは、複数のデータセットにおいて目的関数のノイズ付加と出力のノイズ付加の両方の学習者に対して、期待コスト関数をターゲットしきい値（例：誤分類のための0.69未満）以下にまで低下させることに成功している。
レッドワインの品質データセットでは、1598件のデータのうち100件（6.3％）のみが汚染された状況でも、攻撃がターゲットしきい値を下回るコストにまで低下させた。
プライバシー予算εが大きくなる（つまり、プライバシー保証が弱くなる）ほど攻撃コストは低下し、理論的下限に近づく傾向を示しており、これは弱いプライバシー保証が攻撃の有効性を高めることを示している。
4つの評価された攻撃手法の中で、Deep-DPVが最も効果的であったが、依然として理論的下限と実際の攻撃性能との間に大きなギャップが存在していた。
理論と実践のギャップは、理論的下限が緩い可能性があるか、あるいは攻撃がさらに最適化可能である可能性を示しており、今後の研究における未解決の問題である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。