[논문 리뷰] Sampling Attacks: Amplification of Membership Inference Attacks by Repeated Queries
이 논문은 라벨 예측 값만을 사용하여 기계 학습 모델에 대한 효과적인 소속성 추론을 가능하게 하는 새로운 샘플링 공격을 제안한다. 이 공격는 신뢰도 점수의 필요 없이도 작동하며, 점수가 제공될 경우 표준 방법의 성능을 최대 100%까지 달성한다. 또한 DP-SGD와 출력 편향 기반 방어 기법들조차도 효과적이며, DP-Logits는 최소한의 유틸리티 손실로 강력한 개인정보 보호 기능을 제공한다.
Machine learning models have been shown to leak information violating the privacy of their training set. We focus on membership inference attacks on machine learning models which aim to determine whether a data point was used to train the victim model. Our work consists of two sides: We introduce sampling attack, a novel membership inference technique that unlike other standard membership adversaries is able to work under severe restriction of no access to scores of the victim model. We show that a victim model that only publishes the labels is still susceptible to sampling attacks and the adversary can recover up to 100% of its performance compared to when posterior vectors are provided. The other sides of our work includes experimental results on two recent membership inference attack models and the defenses against them. For defense, we choose differential privacy in the form of gradient perturbation during the training of the victim model as well as output perturbation at prediction time. We carry out our experiments on a wide range of datasets which allows us to better analyze the interaction between adversaries, defense mechanism and datasets. We find out that our proposed fast and easy-to-implement output perturbation technique offers good privacy protection for membership inference attacks at little impact on utility.
연구 동기 및 목표
- 기계 학습 모델에 대한 소속성 추론 공격의 개인정보 유출 위험을 해결하기 위해, 특히 신뢰도 점수나 후행 확률에 접근할 수 없는 상황에서의 위험을 다루는 것.
- 신뢰도 점수나 후행 확률에 접근할 수 없는 엄격한 제약 조건 하에서도 작동하는 실용적인 소속성 추론 기법을 개발하는 것.
- 특히 DP-SGD와 후행적 출력 편향 기반 방어 기법을 포함한 차별적 프라이버시 방어 기법의 효과성을 평가하는 것.
- 다양한 데이터셋을 대상으로 소속성 추론 공격 및 방어 기법의 포괄적인 벤치마크를 제공하여 분야 내 투명성과 재현 가능성을 증진하는 것.
제안 방법
- 공격 대상 모델의 라벨 출력에 반복적인 쿼리를 수행하여 진짜 후행 확률 분포를 추정하는 샘플링 공격을 제안한다.
- 합성 데이터 포인트를 생성하고 모델의 동작을 라벨 응답을 통해 추정하기 위해 편향 스케일 $ p^* $ 를 활용한다.
- 큰 수의 수학적 추정 기법을 적용하며, 이는 대수의 법칙에 기반하여 쿼리 횟수가 증가할수록 평균 라벨 응답이 진짜 후행 확률에 수렴한다는 원리에 기반한다.
- 기존에 학습된 모델에 적용 가능한 후행적 출력 편향 방어 기법인 DP-Logits를 도입하며, 이는 argmax 적용 이전에 모델 로짓에 노이즈를 추가함으로써 방어를 가능하게 한다.
- 다른 데이터셋에서 학습된 섀도 모델을 활용해 최적의 편향 스케일을 전이함으로써 공격자의 학습 비용을 줄인다.
- 5개의 다양한 데이터셋(CIFAR10, CIFAR100, Purchase100, Texas100, Location)을 통합한 평가 프레임워크를 활용하여 공격 및 방어 성능을 비교한다.
실험 결과
연구 질문
- RQ1신뢰도 점수나 후행 확률에 접근할 수 없고 라벨 예측 값만 제공될 경우, 소속성 추론을 효과적으로 수행할 수 있는가?
- RQ2공격자가 공격 대상 모델에 반복적으로 쿼리를 수행할 경우, 공격 성능은 어떻게 변화하는가?
- RQ3학습 시점 방어 기법인 DP-SGD와 비교하여, 후행적 출력 편향 기반 방어 기법인 DP-Logits는 소속성 추론 공격을 어느 정도 효과적으로 완화할 수 있는가?
- RQ4공격자가 한 데이터셋에서 사전에 학습한 최적의 편향 스케일 $ p^* $ 를 다른 데이터셋의 모델에 전이하여 효과적으로 공격할 수 있는가?
- RQ5다양한 데이터셋은 소속성 추론 공격 및 방어의 효과성에 어떤 영향을 미치는가?
주요 결과
- 신뢰도 점수를 제공할 경우, 제안된 샘플링 공격는 표준 소속성 추론 공격의 AUC 성능을 최대 95%까지 달성한다. 이는 라벨 접근만으로도 성능을 확보할 수 있음을 의미한다.
- Location 데이터셋의 경우, 라벨 전용 접근 조건에서도 AUC 0.89를 기록하여 후행 확률에 대한 전체 접근 조건의 공격와 동일한 성능을 달성한다.
- 쿼리 횟수를 10에서 100으로 늘일 경우 공격 성능이 크게 향상되며, 100회를 초과하면 성능 향상의 효과가 점점 줄어든다.
- DP-SGD는 공격 AUC를 근처 추측 수준(예: CIFAR10에서 0.51)으로 낮춰 강력한 방어 효과를 입증한다.
- DP-Logits 후행적 방어 기법은 DP-SGD와 유사한 보호 효과를 제공하면서도 모델 유틸리티에 거의 영향을 주지 않아, 기존 모델에 적용하기에 실용적이다.
- 최적의 편향 스케일 $ p^* $ 를 한 데이터셋에서 다른 데이터셋으로 전이하면 효과적인 공격가능성이 유지되며, 이는 공격자 학습 시간을 줄이되 성능 손실 없이 가능함을 의미한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.