[論文レビュー] MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples
MemGuardは、信頼度ベクトルに慎重に作成された敵対ノイズを加えることでブラックボックスのメンバーシップ推定攻撃を防ぎ、 formal utility-loss guarantees と二相最適化を提供します。ターゲット分類器の再訓練を必要とせず、従来の防御よりプライバシー-有用性のトレードオフを改善します。
In a membership inference attack, an attacker aims to infer whether a data sample is in a target classifier's training dataset or not. Specifically, given a black-box access to the target classifier, the attacker trains a binary classifier, which takes a data sample's confidence score vector predicted by the target classifier as an input and predicts the data sample to be a member or non-member of the target classifier's training dataset. Membership inference attacks pose severe privacy and security threats to the training dataset. Most existing defenses leverage differential privacy when training the target classifier or regularize the training process of the target classifier. These defenses suffer from two key limitations: 1) they do not have formal utility-loss guarantees of the confidence score vectors, and 2) they achieve suboptimal privacy-utility tradeoffs. In this work, we propose MemGuard, the first defense with formal utility-loss guarantees against black-box membership inference attacks. Instead of tampering the training process of the target classifier, MemGuard adds noise to each confidence score vector predicted by the target classifier. Our key observation is that attacker uses a classifier to predict member or non-member and classifier is vulnerable to adversarial examples. Based on the observation, we propose to add a carefully crafted noise vector to a confidence score vector to turn it into an adversarial example that misleads the attacker's classifier. Our experimental results on three datasets show that MemGuard can effectively defend against membership inference attacks and achieve better privacy-utility tradeoffs than existing defenses. Our work is the first one to show that adversarial examples can be used as defensive mechanisms to defend against membership inference attacks.
研究の動機と目的
- ブラックボックス分類器上のメンバーシップ推定攻撃の脅威と、それが学習データセットに及ぼすプライバシーリスクを動機づける。
- MemGuardを提案する。これは信頼度スコアにノイズを加える防御で、formal utility-loss guarantees を提供する。
- ノイズを作成して適用する二相の方法を提供し、ラベルの整合性を維持する。
- MemGuardが現実世界のデータセットで従来の防御よりも良いプライバシー-有用性のトレードオフを生むことを示す。
提案手法
- MemGuardはターゲット分類器の再訓練を行わず、予測された信頼度ベクトルにノイズベクトルを加える。
- Phase Iは、ノイズベクトル r を用いてdistortionを制約条件の下に最小化しつつ、信頼度ベクトルを defender 自身の分類器をランダム推定へ導く敵対的な例に変えるノイズベクトルを作成する。
- Phase IIは、正しく予測されたラベルを維持しつつ、ε予算の下で期待歪みを制限するように選択された確率でノイズベクトルを適用する。
- このアプローチは、攻撃者の推定精度を最小化し、L1歪みで測定される有用性損失を制限しつつ、有効な確率分布を保持することを目的とした最適化フレームワークを用いる。
- 防御は、攻撃者が厳密な攻撃分類器を知らなくても黒箱の攻撃者へ影響を及ぼすよう、敵対的例の転移性に依存する。
実験結果
リサーチクエスチョン
- RQ1MemGuardは、ブラックボックスのメンバーシップ推定攻撃に対して防御しつつ、 formally guaranteed な有用性損失保証を提供できるのか。
- RQ2敵対的例をどのように作成して信頼度スコアの有用性制約を尊重し、予測ラベルを保持するのか。
- RQ3MemGuardを適用すると、現実データ上で既存の防御よりもプライバシー-有用性のトレードオフを改善できるのか。
- RQ4攻撃者がブラックボックスのメンバーシップ推定攻撃を用い、敵対的訓練を受けた可能性がある場合でも防御は有効か。
主な発見
- MemGuardは、最先端のブラックボックスのメンバーシップ推定攻撃に対して効果的な防御を実現する。
- 許容されるノイズが大きくなるほど、MemGuardは同じ平均歪みで既存の防御より攻撃者の推定精度をより低下させる。
- MemGuardは、テストデータセット上で従来の防御よりも良いプライバシー-有用性のトレードオフを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。