[논문 리뷰] MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples
MemGuard는 신뢰도 점수 벡터에 신중하게 설계된 적대적 노이즈를 추가하여 블랙박스 멤버십 추정 공격에 대해 방어하며, 형식적 유틸리티-손실 보장과 두 단계 최적화를 제공합니다. 대상 분류기를 재학습시킬 필요가 없으며, 이전 방어수단들보다 프라이버시-유틸리티 트레이드오프를 개선합니다.
In a membership inference attack, an attacker aims to infer whether a data sample is in a target classifier's training dataset or not. Specifically, given a black-box access to the target classifier, the attacker trains a binary classifier, which takes a data sample's confidence score vector predicted by the target classifier as an input and predicts the data sample to be a member or non-member of the target classifier's training dataset. Membership inference attacks pose severe privacy and security threats to the training dataset. Most existing defenses leverage differential privacy when training the target classifier or regularize the training process of the target classifier. These defenses suffer from two key limitations: 1) they do not have formal utility-loss guarantees of the confidence score vectors, and 2) they achieve suboptimal privacy-utility tradeoffs. In this work, we propose MemGuard, the first defense with formal utility-loss guarantees against black-box membership inference attacks. Instead of tampering the training process of the target classifier, MemGuard adds noise to each confidence score vector predicted by the target classifier. Our key observation is that attacker uses a classifier to predict member or non-member and classifier is vulnerable to adversarial examples. Based on the observation, we propose to add a carefully crafted noise vector to a confidence score vector to turn it into an adversarial example that misleads the attacker's classifier. Our experimental results on three datasets show that MemGuard can effectively defend against membership inference attacks and achieve better privacy-utility tradeoffs than existing defenses. Our work is the first one to show that adversarial examples can be used as defensive mechanisms to defend against membership inference attacks.
연구 동기 및 목표
- 블랙박스 분류기에 대한 멤버십 추정 공격의 위협과 학습 데이터세트의 프라이버시 위험을 동기 부여합니다.
- 형식적 유틸리티-손실 보장을 가진 노이즈를 추가하는 방어 MemGuard를 제안합니다.
- 레이블 무결성을 보존하면서 노이즈를 설계하고 적용하는 2단계 방법을 제시합니다.
- MemGuard가 실제 데이터셋에서 기존 방어 수단보다 더 나은 프라이버시-유틸리티 트레이드오프를 제공함을 보여줍니다.
제안 방법
- MemGuard는 대상 분류기를 재학습시키지 않고도 예측된 신뢰도 점수 벡터에 노이즈 벡터를 추가합니다.
- Phase I는 디스토션을 제약 조건 하에 최소화하는 노이즈 벡터 r을 사용하여 신뢰도 벡터를 적대적 예제로 바꿔 방어자의 분류기가 임의 추측으로 몰아가도록 설계된 노이즈 벡터를 만듭니다.
- Phase II는 올바른 예측 라벨을 유지하면서 기대 디스토션을 ε 예산 하에서 한정을 두고 적용하는 노이즈 벡터를 사용합니다.
- 이 접근법은 공격자의 추론 정확도를 최소화하고 L1 왜곡으로 측정된 유틸리티 손실을 한정하며 유효한 확률 분포를 보존하는 목표를 가진 최적화 프레임워크를 사용합니다.
- 방어는 공격자 블랙박스에 영향을 주기 위해 적대적 예제의 전이성을 활용합니다(공격자가 정확한 공격기 classifier를 알지 못하더라도).
실험 결과
연구 질문
- RQ1MemGuard가 블랙박스 멤버십 추정 공격에 대해 형식적 유틸리티-손실 보장을 제공할 수 있습니까?
- RQ2적대적 예제를 어떻게 설계하여 신뢰도 점수의 유틸리티 제약을 준수하고 예측 라벨을 보존할 수 있습니까?
- RQ3실제 데이터에서 기존 방어 수단에 비해 MemGuard가 프라이버시-유틸리티 트레이드오프를 개선합니까?
- RQ4공격자가 블랙박스 멤버십 추정 공격을 사용하고 가능하면 적대적으로 학습된 공격자를 사용할 때 방어는 효과적입니까?
주요 결과
- MemGuard는 최첨단 블랙박스 멤버십 추정 공격에 대해 효과적인 방어를 달성합니다.
- 더 큰 허용 노이즈가 있을 때, MemGuard는 평균 왜곡이 같은 경우 기존 방어보다 공격자의 추론 정확도를 더 많이 감소시킵니다.
- MemGuard는 테스트 데이터셋에서 이전 방어 수단보다 더 나은 프라이버시-유틸리티 트레이드오프를 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.