Skip to main content
QUICK REVIEW

[論文レビュー] Modelling and Quantifying Membership Information Leakage in Machine Learning

Farhad Farokhi, Mohamed Ali Kâafar|arXiv (Cornell University)|Jan 29, 2020
Adversarial Robustness in Machine Learning参考文献 28被引用数 23
ひとこと要約

本稿は、条件付き相互情報量とカッラー・ライブラー発散を用いて、機械学習におけるメンバーシップ情報漏洩をモデル化・定量化する、情報理論的枠組みを提案する。漏洩は、より大きな訓練データセット、より高い正則化、より低いモデル感受性を伴って減少することを確立し、$(\epsilon,\delta)$-微分プライバシーのガウスノイズが漏洩を$\mathcal{O}(\log^{1/2}(\delta^{-1})\epsilon^{-1})$のオーダーで低減することを示し、メンバーシップ推定攻撃に対する防御の理論的基盤を提供する。

ABSTRACT

Machine learning models have been shown to be vulnerable to membership inference attacks, i.e., inferring whether individuals' data have been used for training models. The lack of understanding about factors contributing success of these attacks motivates the need for modelling membership information leakage using information theory and for investigating properties of machine learning models and training algorithms that can reduce membership information leakage. We use conditional mutual information leakage to measure the amount of information leakage from the trained machine learning model about the presence of an individual in the training dataset. We devise an upper bound for this measure of information leakage using Kullback--Leibler divergence that is more amenable to numerical computation. We prove a direct relationship between the Kullback--Leibler membership information leakage and the probability of success for a hypothesis-testing adversary examining whether a particular data record belongs to the training dataset of a machine learning model. We show that the mutual information leakage is a decreasing function of the training dataset size and the regularization weight. We also prove that, if the sensitivity of the machine learning model (defined in terms of the derivatives of the fitness with respect to model parameters) is high, more membership information is potentially leaked. This illustrates that complex models, such as deep neural networks, are more susceptible to membership inference attacks in comparison to simpler models with fewer degrees of freedom. We show that the amount of the membership information leakage is reduced by $\mathcal{O}(\log^{1/2}(δ^{-1})ε^{-1})$ when using Gaussian $(ε,δ)$-differentially-private additive noises.

研究の動機と目的

  • 機械学習モデルにおけるメンバーシップ推定攻撃の成功要因を理解すること。
  • モデルが訓練データのメンバーシップをどの程度露呈するかを定量化する、厳密な情報理論的漏洩測度を確立すること。
  • データセットサイズ、正則化、モデル感受性といったモデル特性が漏洩に与える影響を調査すること。
  • 特にガウスノイズを用いた微分プライバシー機構がメンバーシップ漏洩に与える影響を評価すること。
  • メンバーシップ推定の成功確率と、KL発散などの情報理論的測度との間の理論的関連を提供すること。

提案手法

  • 本稿は、モデルのパラメータを条件とした、データレコードと訓練済みモデル間の条件付き相互情報量を用いて、メンバーシップ情報漏洩を定義する。
  • 特定の訓練レコードを含む・含まないモデル分布間のカッラー・ライブラー発散を用いて、この漏洩の上界を導出する。
  • Le Camの不等式およびPinskerの不等式を用いて、このKLに基づく漏洩測度が、攻撃者のメンバーシップ推定成功確率を上限づけることを証明する。
  • パラメータに対するフィットネスの導関数に基づく感受性メトリクスを導入し、モデルの複雑さと漏洩を関連付ける。
  • $(\epsilon,\delta)$-微分プライバシー下での加法的ガウスノイズの効果を分析し、漏洩の定量的低減を導出する。
  • 線形回帰および深層ニューラルネットワークを用いた実験を通じて、理論的結果を検証し、データセットサイズ、正則化、特徴量、ノイズレベルの変動に応じた攻撃者利得と漏洩を測定する。

実験結果

リサーチクエスチョン

  • RQ1訓練データセットのサイズは、機械学習モデルにおけるメンバーシップ情報漏洩にどのように影響するか?
  • RQ2正則化は、凸的および非凸的モデルにおいて、どの程度メンバーシップ情報漏洩を低減するか?
  • RQ3パラメータのフィットネス導関数で定義されるモデル感受性は、メンバーシップ推定攻撃の潜在的リスクにどのように影響するか?
  • RQ4$(\epsilon,\delta)$-微分プライバシーのガウスノイズを用いることで、メンバーシップ情報漏洩はどの程度定量的に低減されるか?
  • RQ5理論的漏洩上界は、実際のメンバーシップ推定攻撃の成功確率とどの程度相関しているか?

主な発見

  • メンバーシップ情報漏洩は訓練データセットサイズの減少関数であり、データセットサイズが大きくなるに従い、攻撃者の成功確率および漏洩量が急速に低下する。
  • 正則化は過学習を緩和することでメンバーシップ情報漏洩を低減し、より高い正則化係数は低い漏洩と攻撃者利得をもたらす。
  • 高いモデル感受性(パラメータ1単位の変化に対するフィットネス変化の大きさ)は、メンバーシップ情報漏洩の潜在的リスクを増大させる。これは、深層ニューラルネットワークのような複雑なモデルの脆弱性を説明する。
  • $(\epsilon,\delta)$-微分プライバシーのガウスノイズの適用により、メンバーシップ情報漏洩は$\mathcal{O}(\log^{1/2}(\delta^{-1})\epsilon^{-1})$のオーダーで低減され、プライバシーと性能のトレードオフを定量的に示す。
  • 線形回帰および深層ニューラルネットワークにおける実験結果から、データセットサイズの増大、正則化の強化、ノイズ強度の上昇に伴い、漏洩および攻撃者利得が両方とも低下することが確認された。
  • 理論的KL発散に基づく漏洩測度は、攻撃者の成功確率をきつめに上限づけることができ、メンバーシッププライバシーのリスクを評価するための信頼性のある指標としての有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。