Skip to main content
QUICK REVIEW

[논문 리뷰] Are Your Sensitive Attributes Private? Novel Model Inversion Attribute Inference Attacks on Classification Models

Shagufta Mehnaz, Sayanton V. Dibbo|arXiv (Cornell University)|2022. 01. 23.
Adversarial Robustness in Machine Learning인용 수 20
한 줄 요약

이 논문은 prior work보다 뛰어난 두 가지 새로운 블랙박스 모델 역전적 속성 추론 공격(신뢰도 점수 기반 및 라벨 전용)을 소개하고, 이를 부분 지식 및 다중 속성으로 확장하며, 그룹 간 취약성 차이를 연구한다.

ABSTRACT

Increasing use of machine learning (ML) technologies in privacy-sensitive domains such as medical diagnoses, lifestyle predictions, and business decisions highlights the need to better understand if these ML technologies are introducing leakage of sensitive and proprietary training data. In this paper, we focus on model inversion attacks where the adversary knows non-sensitive attributes about records in the training data and aims to infer the value of a sensitive attribute unknown to the adversary, using only black-box access to the target classification model. We first devise a novel confidence score-based model inversion attribute inference attack that significantly outperforms the state-of-the-art. We then introduce a label-only model inversion attack that relies only on the model's predicted labels but still matches our confidence score-based attack in terms of attack effectiveness. We also extend our attacks to the scenario where some of the other (non-sensitive) attributes of a target record are unknown to the adversary. We evaluate our attacks on two types of machine learning models, decision tree and deep neural network, trained on three real datasets. Moreover, we empirically demonstrate the disparate vulnerability of model inversion attacks, i.e., specific groups in the training dataset (grouped by gender, race, etc.) could be more vulnerable to model inversion attacks.

연구 동기 및 목표

  • 블랙박스 방식으로 분류 모델에 접근하는 것이 학습 데이터로부터 민감 속성을 추론하게 하는지 조사한다.
  • 이전 방법보다 우수한 두 가지 새로운 MIAI 공격(신뢰도 점수 기반 및 라벨 전용)을 개발한다.
  • 비민감 속성의 부분 지식 및 다중 민감 속성의 시나리오에 공격을 확장한다.
  • 실제 표형 데이터 세트에서 의사 결정 트리와 DNN에 대한 공격을 평가하여 프라이버시 위험과 그룹 간 차이를 평가한다.

제안 방법

  • 모델의 신뢰도 점수를 사용하여 민감 속성 값을 추론하는 신뢰도 점수 기반 MIAI(CSMIA)를 설계하고 구현한다.
  • 신뢰도 점수 없이 예측된 라벨만에 의존하는 라벨 전용 MIAI(LOMIA)를 개발하고, 그 효과가 CSMIA와 일치함을 보인다.
  • 비민감 속성의 부분 지식 처리 및 다중 민감 속성 추론으로 공격을 확장한다.
  • 역전 취약성 평가를 더 잘 반영하기 위해 정확도 외의 평가 지표(G-mean, MCC)를 제안한다.
  • 기준 공격(NaiveA, RandGA, FJRMIA)과 비교하고 GSS, Adult, FiveThirtyEight 데이터세트에서 의사 결정 트리와 심층 신경망에 대한 성능을 평가한다.

실험 결과

연구 질문

  • RQ1대상 분류기에 대한 블랙박스 접근이 비모델 기반 베이스라인보다 개인의 민감 속성을 추론하는 데 의미 있게 향상시킬 수 있는가?
  • RQ2신뢰도 점수 기반과 라벨 전용 MIAI 전략이 비슷한 효과를 달성하는가?
  • RQ3비민감 속성의 부분 지식과 다중 민감 속성의 공격 성능에 어떤 영향을 미치는가?
  • RQ4모델 역전 공격에서 인구통계학적 그룹 간에 차별적 취약성이 있는가?
  • RQ5훈련 집합에 포함되지 않았지만 동일한 분포에서 추출된 데이터에 공격이 전이되는가(분포성 프라이버시)?

주요 결과

  • CSMIA와 LOMIA는 테스트된 데이터셋과 모델에서 최첨단 공격보다 현저히 우수하다.
  • 예측된 라벨만을 사용하는 LOMIA가 CSMIA의 효율성과 일치한다.
  • 일부 비민감 속성이 알려지지 않아도 공격은 여전히 효과적이다.
  • 차별적 취약성 관찰: 성별, 인종 등에 의해 정의된 특정 그룹이 역전 공격에 더 취약할 수 있다.
  • 공격은 학습 데이터 프라이버시뿐 아니라 동일 분포에서 추출된 데이터의 분포성 프라이버시도 훼손할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.