QUICK REVIEW

[論文レビュー] Poisoning Attacks with Generative Adversarial Nets

Luis Muñoz-González, Bjarne Pfitzner|arXiv (Cornell University)|Jun 18, 2019

Adversarial Robustness in Machine Learning参考文献 28被引用数 39

ひとこと要約

この論文は pGAN を導入する。GAN ベースのフレームワークで、ジェネレーター、ディスクリミネーター、ターゲット分類器を用いて、分類器を劣化させつつ検出されづらい poison ポイントを作成する。

ABSTRACT

Machine learning algorithms are vulnerable to poisoning attacks: An adversary can inject malicious points in the training dataset to influence the learning process and degrade the algorithm's performance. Optimal poisoning attacks have already been proposed to evaluate worst-case scenarios, modelling attacks as a bi-level optimization problem. Solving these problems is computationally demanding and has limited applicability for some models such as deep networks. In this paper we introduce a novel generative model to craft systematic poisoning attacks against machine learning classifiers generating adversarial training examples, i.e. samples that look like genuine data points but that degrade the classifier's accuracy when used for training. We propose a Generative Adversarial Net with three components: generator, discriminator, and the target classifier. This approach allows us to model naturally the detectability constrains that can be expected in realistic attacks and to identify the regions of the underlying data distribution that can be more vulnerable to data poisoning. Our experimental evaluation shows the effectiveness of our attack to compromise machine learning classifiers, including deep networks.

研究の動機と目的

機械学習におけるセキュリティ脅威としてデータ poisoning を動機づけ、現実的な攻撃制約を評価する。
Generative Adversarial Nets を用いて深層ネットワークで動作するスケーラブルな poisoning 戦略を提案する。
検出可能性の制御を組み込み、現実的な攻撃者の制約をモデル化し、攻撃の有効性と隠密性のトレードオフを研究する。

提案手法

ジェネレーター、ディスクリミネーター、ターゲット分類器の三つの要素を備えた pGAN を導入する。
ジェネレーターが分類器への攻撃の凸結合とディスクリミネーターの回避の最大化を行うミニマックスゲームを定式化する。
detectability（検出可能性）と効果の重み付けに α パラメータを用い、注入点の割合を制御する λ（lambda）を設定する。
条件付き GAN のような設定で、poisoning クラスラベルを条件として協調的な勾配ベースの更新を用いて訓練する。
ブラックボックスシナリオに対して代理モデルを許容し、標準的な GAN の安定化技術（ドロップアウト、バッチ正規化、ラベルスムージング）を組み込む。
λ の役割とミニマックス目的の鞍点解を含む訓練ダイナミクスの実用的なガイドラインを提供する。

実験結果

リサーチクエスチョン

RQ1GAN ベースのフレームワークは、偽データに近い poisoning の例を生成して分類器性能を低下させつつ、元データに近い状態を保てるか。
RQ2detectability 制約（α を介して）は poisoning の有効性と隠密性にどう影響するか。
RQ3 poisoning 点の割合 λ が、データセットとモデルに対して攻撃の成功に与える影響はどうか。
RQ4pGAN は過度に検出性を高めることなく、ターゲットを絞った誤分類攻撃を生み出せるか。
RQ5detectability 制約の下で、従来の poisoning 手法と比較して pGAN はどのように有効性や誤分類パターンを変化させるか。

主な発見

pGAN は MNIST および Fashion-MNIST において、 poisoning 点を注入することで分類器の精度を低下させることができ、α の値が小さいほど効果が大きい。
α が高いと検出が難しくなる傾向を示し、隠密性と影響のトレードオフを示す。
poisoning 点の割合を増やすと一般に攻撃の有効性は高まるが、より大規模なデータセットでは poisoning の相対的な影響が低下する。
pGAN は小さな poisoning の割合でも、特定の誤分類を狙った攻撃（例：桁 3 を 5 と誤分類するなど）を実行できる。
ラベル反転戦略と detectability 制約を比較した場合、pGAN はより高い攻撃有効性と異なる誤分類プロフィール（よりターゲット寄りで偽陽性が少ない）を示す。
トレーニングデータセットのサイズが大きくなると攻撃有効性は低下するが、より大きなモデルではターゲット攻撃が依然として実現可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。