QUICK REVIEW

[論文レビュー] A Unified Framework for Data Poisoning Attack to Graph-based Semi-supervised Learning

Xuanqing Liu, Si Si|arXiv (Cornell University)|Oct 30, 2019

Adversarial Robustness in Machine Learning参考文献 31被引用数 33

ひとこと要約

本論文は、Graph-based Semi-Supervised Learning (G-SSL) に対するデータポイズニング攻撃の統一フレームワークを提示し、L2制約下での回帰とL0制約下での分類の専門アルゴリズムを提供するとともに、攻撃の有効性を示す広範な実験を行う。

ABSTRACT

In this paper, we proposed a general framework for data poisoning attacks to graph-based semi-supervised learning (G-SSL). In this framework, we first unify different tasks, goals, and constraints into a single formula for data poisoning attack in G-SSL, then we propose two specialized algorithms to efficiently solve two important cases --- poisoning regression tasks under $\\ell_2$-norm constraint and classification tasks under $\\ell_0$-norm constraint. In the former case, we transform it into a non-convex trust region problem and show that our gradient-based algorithm with delicate initialization and update scheme finds the (globally) optimal perturbation. For the latter case, although it is an NP-hard integer programming problem, we propose a probabilistic solver that works much better than the classical greedy method. Lastly, we test our framework on real datasets and evaluate the robustness of G-SSL algorithms. For instance, on the MNIST binary classification problem (50000 training data with 50 labeled), flipping two labeled data is enough to make the model perform like random guess (around 50\\% error).

研究の動機と目的

Graph-based semi-supervised learning (G-SSL) に対するデータポイズニング攻撃の一般的なフレームワークを導入する。
ポイズニングフレームワーク内で回帰と分類の両方のタスクを扱う。
異なる制約設定（回帰はL2、分類はL0）で効率的なアルゴリズムを開発する。
ホワイトボックスおよび不完全知識シナリオを検討し、G-SSLの頑健性を評価する。

提案手法

統一目的関数（Eq. 2）内で訓練ラベルまたは特徴量への摂動としてデータポイズニングをモデル化する。
ラベル伝播予測の閉形式を導出し、ポイズニングを扱いやすい部分問題（回帰と分類）に還元する。
回帰の場合：グラデイントベースの解法で局所最適解に収束する非凸トラスト領域問題を解く（Algorithm 1）。
分類の場合：NP-hard な離散問題に変換し、再パラメータ化と確率的勾配（Equations 7–10）を用いた確率的ブレンドリラクゼーションを適用する。
確率的解法において ||b1||2 正則化と top-cmax 選択を用いてスパース性と予算制約を有効にする。
実データセットで攻撃の影響を RMSE と誤差率で評価する。

実験結果

リサーチクエスチョン

RQ1学習中のデータポイズニングに対してG-SSL法はどれくらい脆弱か。
RQ2グラフベースのSSLの下で回帰と分類の両方のタスクを統一的かつ体系的に攻撃できるか。
RQ3L2型およびL0型制約の下で最適解またはほぼ最適解の摂動を効率的に見つけるアルゴリズムは何か。
RQ4攻撃者の知識（完全・不完全）が攻撃の有効性にどう影響するか。
RQ5ラベル付きデータサイズとカーネルパラメータに依存して、G-SSL法のポイズニングに対する頑健性はどのようになるか。

主な発見

小さな摂動でもG-SSLの性能を大幅に低下させる（例：MNISTの2つのラベル付き点を反転させると2値タスクでランダム推測に匹敵する）。
回帰ポイズニング手法はL2制約下でほぼグローバル最適な摂動を、漸近的に線形時間の勾配法で達成する。
分類ポイズニング問題は、確率的解法が greedy ベースラインを上回す利点があり、特に c_max が大きくなるにつれて顕著である。
攻撃者が正確な未ラベルラベルを知らなくても、推定ラベルを用いることで影響の低下がいくらかで済み、ポイズニングは依然有効である。
ラベル付き点の数が増えると、ラベル付きノードからの情報伝搬によりポイズニングに対する頑健性が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。