Skip to main content
QUICK REVIEW

[논문 리뷰] Machine Learning with Membership Privacy using Adversarial Regularization

Milad Nasr, Reza Shokri|arXiv (Cornell University)|2018. 07. 16.
Adversarial Robustness in Machine Learning참고 문헌 33인용 수 23
한 줄 요약

이 논문은 훈련 데이터에 대한 예측이 비훈련 데이터에 대한 예측과 구분되지 않도록 함으로써 모델 정확도와 소유자 개인정보 유출 방지를 동시에 최적화하는 min-max 적대적 훈련 프레임워크를 제안한다. 이 방법은 정확도 손실이 거의 없이 거의 무작위 추측 수준의 소유자 개인정보 유추 공격 성공률를 달성하며, 일반화 성능을 향상시키는 강력한 정규화 기법으로 작용한다.

ABSTRACT

Machine learning models leak information about the datasets on which they are trained. An adversary can build an algorithm to trace the individual members of a model's training dataset. As a fundamental inference attack, he aims to distinguish between data points that were part of the model's training set and any other data points from the same distribution. This is known as the tracing (and also membership inference) attack. In this paper, we focus on such attacks against black-box models, where the adversary can only observe the output of the model, but not its parameters. This is the current setting of machine learning as a service in the Internet. We introduce a privacy mechanism to train machine learning models that provably achieve membership privacy: the model's predictions on its training data are indistinguishable from its predictions on other data points from the same distribution. We design a strategic mechanism where the privacy mechanism anticipates the membership inference attacks. The objective is to train a model such that not only does it have the minimum prediction error (high utility), but also it is the most robust model against its corresponding strongest inference attack (high privacy). We formalize this as a min-max game optimization problem, and design an adversarial training algorithm that minimizes the classification loss of the model as well as the maximum gain of the membership inference attack against it. This strategy, which guarantees membership privacy (as prediction indistinguishability), acts also as a strong regularizer and significantly generalizes the model. We evaluate our privacy mechanism on deep neural networks using different benchmark datasets. We show that our min-max strategy can mitigate the risk of membership inference attacks (close to the random guess) with a negligible cost in terms of the classification error.

연구 동기 및 목표

  • 기계학습 서비스(MLaaS) 환경에서 발생하는 소유자 개인정보 유추 공격이라는 심각한 프라이버시 위협을 해결하기 위해.
  • 차별적 프라이버시에 의존하지 않고도 소유자 개인정보 보장을 보장하는 프라이버시 메커니즘을 설계하기 위해 — 즉, 훈련 데이터와 비훈련 데이터에 대한 모델 출력이 통계적으로 구분되지 않도록 하기 위해.
  • 모델 유틸리티(분류 정확도)와 가장 강력한 소유자 개인정보 유추 공격에 대한 프라이버시 강건성의 공동 최적화를 위해.
  • 방어를 최소-최대 게임으로 공식화하기 위해 — 모델은 분류 오차를 최소화하면서도, 공격자가 훈련 데이터와 비훈련 데이터를 구분하는 데 어려움을 느끼도록 최적화된다.
  • 제안된 방법이 강력한 정규화 기법으로 작용하여 일반화 성능을 향상시키며, 동시에 증명 가능한 소유자 개인정보 보장을 보장함을 입증하기 위해.

제안 방법

  • 소유자 개인정보 보장을 예측의 구분 불가능성으로 공식화하기: 동일한 분포에서 온 데이터 포인트에 대해 훈련 데이터에 대한 모델 출력이 통계적으로 비슷해야 한다.
  • 최소-최대 최적화로 방어를 모델링하기: 모델은 분류 오차를 최소화하면서도, 공격자는 소유자 개인정보 유추 성과를 최대화하도록 설정되어, 가장 강력한 공격을 시뮬레이션한다.
  • 적대적 훈련을 사용해 훈련 중에 소유자 개인정보 유추 공격자를 시뮬레이션하기: 공격자는 모델 출력을 바탕으로 훈련 샘플과 비훈련 샘플을 구분하도록 훈련된다.
  • 소유자 개인정보 유추 공격자를 훈련 루프에 미분 가능 컴포넌트로 통합하여, 엔드 투 엔드 백프로파게이션과 공동 최적화를 가능하게 한다.
  • 표준 벤치마크 데이터셋을 사용해 딥 네ural 네트워크에 적용하며, 프라이버시 메커니즘을 훈련 목표에 직접 통합한다.
  • 게임 이론 프레임워크를 사용해, 결과적으로 얻어진 모델이 훈련 중에 사용된 특정 공격자 뿐 아니라 동일한 성과 함수를 최대화하는 모든 유형의 유추 공격에 대해 강건함을 보장한다.

실험 결과

연구 질문

  • RQ1훈련 데이터에 대한 모델의 예측이 동일한 분포에서 온 비훈련 데이터의 예측과 통계적으로 구분되지 않도록 훈련된 머신러닝 모델을 만들 수 있는가?
  • RQ2이러한 프라이버시 보장이 모델 유틸리티(분류 정확도)에 거의 영향을 주지 않도록 달성될 수 있는가?
  • RQ3제안된 최소-최대 적대적 훈련 프레임워크가 모델을 효과적으로 정규화하고 일반화 성능을 향상시키는가?
  • RQ4실제 MLaaS 환경에서 블랙박스 소유자 개인정보 유추 공격에 대해 이 방법은 얼마나 효과적인가?
  • RQ5이 방법은 성능 저하 없이 딥 네ural 네트워크에 적용될 수 있는가?

주요 결과

  • 제안된 방법은 모든 평가된 벤치마크 데이터셋에서 소유자 개인정보 유추 공격 성공률를 거의 무작위 추측 수준(약 50%)으로 낮추며, 강력한 소유자 개인정보 보장을 나타낸다.
  • 분류 정확도 손실은 극히 미미하며, 일반적으로 1% 미만이지만, 거의 완벽한 소유자 개인정보 보장을 달성한 상태이다.
  • 이 방법은 강력한 정규화 기법으로 작용하여, 표준 훈련 대비 테스트 데이터에서의 일반화 성능을 크게 향상시킨다.
  • 적대적 훈련 프레임워크는 가장 강력한 소유자 개인정보 유추 공격을 성공적으로 시뮬레이션하고 방어하며, 최악의 상황에서의 공격자에 대비해 최적화된 모델을 생성한다.
  • 기존의 정규화 기법과 단순한 프라이버시 완화 기법보다도 프라이버시 보호와 유틸리티 유지 측면에서 뛰어난 성능을 보인다.
  • MNIST, CIFAR-10 및 기타 데이터셋에 대한 실험 결과는 이 방법이 다양한 딥 러닝 작업과 아키텍처에서 효과적임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.