QUICK REVIEW

[論文レビュー] White-box vs Black-box: Bayes Optimal Strategies for Membership Inference

Alexandre Sablayrolles, Matthijs Douze|arXiv (Cornell University)|Aug 29, 2019

Adversarial Robustness in Machine Learning被引用数 113

ひとこと要約

本論文はBayes最適なメンバーシップ推定戦略を導出し、ブラックボックス（損失ベース）攻撃が穏健な仮定の下でホワイトボックス攻撃に匹敵できることを示し、CIFAR-10およびImageNetで従来法を上回る実用的近似を提供する。

ABSTRACT

Membership inference determines, given a sample and trained parameters of a machine learning model, whether the sample was part of the training set. In this paper, we derive the optimal strategy for membership inference with a few assumptions on the distribution of the parameters. We show that optimal attacks only depend on the loss function, and thus black-box attacks are as good as white-box attacks. As the optimal strategy is not tractable, we provide approximations of it leading to several inference methods, and show that existing membership inference methods are coarser approximations of this optimal strategy. Our membership attacks outperform the state of the art in various settings, ranging from a simple logistic regression to more complex architectures and datasets, such as ResNet-101 and Imagenet.

研究の動機と目的

ホワイトボックスとブラックボックスの両方の設定で、メンバーシップ推定を動機づけ、形式化する。
Bayes最適なメンバーシップ推定戦略を導出し、その依存が損失のみであり、モデルパラメータには依存しないことを示す。
実用的で扱いやすい近似（MAST、MALT、MATT）を開発し、差分プライバシーの概念と結びつける。
CIFAR-10およびImageNetで攻撃を経験的に検証し、最新手法と比較する。

提案手法

訓練手続をパラメータの事後分布として温度Tでモデル化する（尤度は exp(-1/T sum loss)に比例）。
ベイズ推論を用いて Bayes最適なメンバーシップ確率 M(θ, z1) を導出し、スコア s と較正項 τ を介して損失のみを介して依存することを示す。
最適スコアの明示的な近似を導入する：MAST（サンプルごとの較正 τ(z1)）、MALT（定数 τ）、そして MATT（テイラー級近似）。
結果を差分プライバシーに関連づけ、ε-差分プライバシーと (ε, δ)-メンバーシッププライバシーの保証と訓練手続への影響を提示する。
理論を実用的な攻撃アルゴリズムに翻訳し、基準（0-1）とシャドーモデルを議論する。
CIFAR-10のCNN特徴量を用いたロジスティック回帰、小さなCNN、および大規模モデル（Imagenet）で、 varied data augmentation を用いた攻撃を評価する。

実験結果

リサーチクエスチョン

RQ1モデルパラメータとターゲットサンプルが与えられたとき、メンバーシップ推定のBayes最適戦略は何か？
RQ2Bayes最適攻撃は、ターゲットサンプルの損失を超えるモデルパラメータに依存するのか？
RQ3実用的で扱いやすい近似（MAST、MALT、MATT）は既存のメンバーシップ推定法よりも優れているのか？
RQ4CIFAR-10やImageNetのような現実世界データセットで、データ拡張とモデル規模はメンバーシップ推定攻撃の強さにどう影響するのか？

主な発見

表のヘッダ	主要な結果の表ヘッダ（例を示す）
Model accuracy	Attack accuracy	n	train	validation	0-1	MALT	MATT	400	97.9	93.8	52.1	54.4	57.0
	1000	97.3	94.5	51.4	52.6	54.5
	2000	96.8	95.2	50.8	51.7	53.0
	4000	97.7	95.6	51.0	51.4	52.1
	6000	97.5	96.0	50.7	51.0	51.8
mAP test		400	51.8	55.8	60.1
		1000	53.2	53.2	56.6
		2000	51.8	51.8	54.4
		4000	51.9	51.9	53.7
		6000	51.4	51.4	53.0
mAP train		400	50.1	51.9	57.1
		1000	50.5	54.8
		2000	50.4	53.4
		4000	50.1	52.6
		6000	50.2	52.2

最適なメンバーシップ推定は損失のみに依存し、分類器のパラメータには依存しない。つまり白ボックス攻撃は黒ボックス攻撃に対して漸近的な優位性を与えない。
3つの明示的近似（MAST、MALT、MATT）は、いくつかの設定で従来手法（0-1ベースラインおよびシャドーモデル）を上回る実用的な攻撃を生み出す。
CIFAR-10で単純なロジスティック回帰を用いた場合、MALTとMATTは0-1およびシャドーモデル攻撃より高い攻撃精度を達成し、MATTがしばしば最も強力。
ImageNet（VGG-16およびResNet-101）ではデータ拡張が攻撃ギャップを縮小するが、Bayes最適およびMALT攻撃は拡張なしで依然として実質的なメンバーシッププライバシー侵害を達成（約90％の精度）し、拡張ありでも64％を超える。
CIFAR-10とImageNetの実験は、提案された攻撃がモデルの複雑さやデータレジームを跨いで有効であることを示している。
本フレームワークはメンバーシップ推定を差分プライバシーに結びつけ、特定の仮定の下で明示的な ε-differential privacy 保証と ε, δ-メンバーシッププライバシー境界を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。