Skip to main content
QUICK REVIEW

[논문 리뷰] Privacy-preserving Machine Learning through Data Obfuscation

Tianwei Zhang, Zecheng He|arXiv (Cornell University)|2018. 07. 05.
Privacy-Preserving Technologies in Data참고 문헌 32인용 수 66
한 줄 요약

논문은 MLaaS에서 학습 데이터 프라이버시를 보호하기 위해 민감한 샘플에 노이즈를 추가하고 그룹을 증강하는 일반적인 데이터 은폐 프레임워크를 제안하며, 모델 정확도를 유지하면서 여러 프라이버시 공격을 무력화한다.

ABSTRACT

As machine learning becomes a practice and commodity, numerous cloud-based services and frameworks are provided to help customers develop and deploy machine learning applications. While it is prevalent to outsource model training and serving tasks in the cloud, it is important to protect the privacy of sensitive samples in the training dataset and prevent information leakage to untrusted third parties. Past work have shown that a malicious machine learning service provider or end user can easily extract critical information about the training samples, from the model parameters or even just model outputs. In this paper, we propose a novel and generic methodology to preserve the privacy of training data in machine learning applications. Specifically we introduce an obfuscate function and apply it to the training data before feeding them to the model training task. This function adds random noise to existing samples, or augments the dataset with new samples. By doing so sensitive information about the properties of individual samples, or statistical properties of a group of samples, is hidden. Meanwhile the model trained from the obfuscated dataset can still achieve high accuracy. With this approach, the customers can safely disclose the data or models to third-party providers or end users without the need to worry about data privacy. Our experiments show that this approach can effective defeat four existing types of machine learning privacy attacks at negligible accuracy cost.

연구 동기 및 목표

  • MLaaS에서 프라이버시 위협을 분석하고 누출 소스와 유형을 분류한다.
  • 학습 데이터의 개별 속성과 그룹 속성을 숨기기 위한 일반적인 데이터 은폐 방법을 제안한다.
  • 은폐가 최소한의 정확도 영향으로 여러 프라이버시 공격을 무력화할 수 있음을 입증한다.
  • 프라이버시와 유틸리티의 균형을 맞추기 위한 은폐 매개변수 지침을 제공한다.

제안 방법

  • 외주화하기 전에 클라이언트 측에 은폐 모듈을 도입하여 학습 데이터를 전처리한다.
  • ObfuscateIndividualSample은 민감한 샘플의 선택된 특징에 노이즈를 추가하여 개인 속성을 숨긴다.
  • ObfuscateGroupSample은 그룹에 합성 샘플(음수 샘플에 노이즈를 더한 것)을 추가하여 그룹 차원의 통계를 숨긴다.
  • 전체 데이터 접근과 블랙박스 모델 접근의 두 가지 위협 모델 사례를 제시하고 프라이버시-유틸리티 트레이드오프를 분석한다.
  • 네 가지 공격 유형(모델 기억화, 멤버십 추론, 모델 반전, 모델 분류 공격)에 대해 프라이버시를 평가하고 정확도 손실은 거의 없다.

실험 결과

연구 질문

  • RQ1데이터 은폐가 공격자가 데이터, 모델 매개변수 또는 출력에 접근하더라도 개별 학습 샘플의 속성 누출을 방지할 수 있는가?
  • RQ2은폐를 통해 샘플 그룹을 합성 데이터로 숨기면 통계적 속성을 크게 해치지 않으면서 모델 정확도를 숨길 수 있는가?
  • RQ3프라이버시와 유틸리티의 균형을 맞추기 위한 효과적인 매개변수 설정(노이즈 수준, 특징 비율, 증가 비율)은 무엇인가?
  • RQ4제안된 은폐 기법이 MLaaS 시나리오에서 다수의 알려진 ML 프라이버시 공격을 이길 수 있는가?
  • RQ5두 가지 은폐 전략(개별 vs. 그룹)이 다양한 위협 모델에서 어떻게 비교되는가?

주요 결과

  • 개별 샘플을 은폐하기 위해 선택된 특징의 부분 집합에 노이즈를 추가하면 직접 데이터 접근으로 인한 누출이 감소하는 한편 학습 효율성은 유지되고 다소의 정확도 손실이 발생한다.
  • 합성 샘플(음수 샘플에 노이즈를 더한 것)을 추가하여 그룹 차원 통계를 흐리게 하면서 모델 정확도에 큰 영향을 주지 않는다.
  • 이 접근 방식은 테스트된 시나리오에서 네 가지 프라이버시 공격(모델 기억화, 멤버십 추론, 모델 반전, 모델 분류)을 효과적으로 무력화한다.
  • 노이즈 강도와 교란된 특징의 비율(r)이 프라이버시-유틸리티 트레이드오프에 영향을 주며, 실험적으로 보고된 경우에서 허용 가능한 정확도 저하(<5%)를 보인다.
  • 데이터 은폐는 MLaaS에 대한 일반적이고 모델에 구애받지 않는 프라이버시 보호를 제공하여 제3자가 데이터, 모델 또는 출력에 접근하더라도 데이터 누출 위험을 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.