Skip to main content
QUICK REVIEW

[論文レビュー] Are Your Sensitive Attributes Private? Novel Model Inversion Attribute Inference Attacks on Classification Models

Shagufta Mehnaz, Sayanton V. Dibbo|arXiv (Cornell University)|Jan 23, 2022
Adversarial Robustness in Machine Learning被引用数 20
ひとこと要約

本論文は、従来手法を上回る新たな黒箱モデル逆推定属性推定攻撃(信頼度スコアベースとラベルのみ)を2つ提案し、それらを部分知識・複数属性へ拡張し、グループ間の脆弱性の差異を検討する。

ABSTRACT

Increasing use of machine learning (ML) technologies in privacy-sensitive domains such as medical diagnoses, lifestyle predictions, and business decisions highlights the need to better understand if these ML technologies are introducing leakage of sensitive and proprietary training data. In this paper, we focus on model inversion attacks where the adversary knows non-sensitive attributes about records in the training data and aims to infer the value of a sensitive attribute unknown to the adversary, using only black-box access to the target classification model. We first devise a novel confidence score-based model inversion attribute inference attack that significantly outperforms the state-of-the-art. We then introduce a label-only model inversion attack that relies only on the model's predicted labels but still matches our confidence score-based attack in terms of attack effectiveness. We also extend our attacks to the scenario where some of the other (non-sensitive) attributes of a target record are unknown to the adversary. We evaluate our attacks on two types of machine learning models, decision tree and deep neural network, trained on three real datasets. Moreover, we empirically demonstrate the disparate vulnerability of model inversion attacks, i.e., specific groups in the training dataset (grouped by gender, race, etc.) could be more vulnerable to model inversion attacks.

研究の動機と目的

  • 分類モデルへのブラックボックスアクセスが、訓練データから機微な属性を推論できるかを調査する。
  • 従来手法を上回る2つの新規MIAI攻撃(信頼度スコアベースとラベルのみ)を開発する。
  • 非機微属性の部分的知識や複数の機微属性を含むシナリオへ攻撃を拡張する。
  • 実データの表形式データセット上で決定木とDNNに対して攻撃を評価し、プライバシーリスクとグループ間差異を評価する。

提案手法

  • 信頼度スコアを用いて機微属性の値を推定する、信頼度スコアベースのMIAI(CSMIA)を設計・実装する。
  • 信頼度スコアを用いず予測ラベルのみを用いるラベル専用のMIAI(LOMIA)を開発し、その有効性がCSMIAと同等であることを示す。
  • 非機微属性の部分的知識を扱い、複数の機微属性を推定するようAttackを拡張する。
  • 精度以外の評価指標(G-mean,MCC)を提案し、逆推定の脆弱性をより適切に評価する。
  • ベースライン攻撃(NaiveA, RandGA, FJRMIA)と比較し、GSS、Adult、FiveThirtyEightデータセットに対する決定木および深層ニューラルネットでの性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1ブラックボックスを介したターゲット分類器へのアクセスは、非モデルベースのベースラインと比べて、対象個人の機微属性の推定を有意に改善できるか。
  • RQ2信頼度スコアベースとラベルのみのMIAI戦略は、同等の有効性を達成するか。
  • RQ3非機微属性の部分的知識と複数の機微属性は、攻撃の性能にどのような影響を与えるか。
  • RQ4モデル逆推定攻撃において、人口統計学的グループ間で脆弱性の差があるか。
  • RQ5訓練データに含まれない同一分布から抽出されたデータに対して、攻撃は転移するか(分布的プライバシー)?

主な発見

  • CSMIAとLOMIAは、検討済みデータセットとモデルにおいて最先端の攻撃を大幅に上回る。
  • ラベルのみを用いるLOMIAは、CSMIAと同等の有効性を示す。
  • 非機微属性の一部が未知でも、攻撃は有効である。
  • 特定のグループ(例:性別、人種で定義される)で逆推定攻撃の脆弱性が高いことが観察される。
  • 攻撃は訓練データのプライバシーのみならず、同一分布から抽出されたデータの分布的プライバシーも侵害し得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。