[논문 리뷰] Label-Leaks: Membership Inference Attack with Label.
이 논문은 모델 예측값(라벨)만을 활용하고 신뢰도 점수를 사용하지 않는 라벨 전용 멤버십 유추 공격을 제안하며, 전이 기반 및 펌질 기반이라는 두 가지 새로운 공격 방법을 도입한다. 여섯 개의 데이터셋에서 수행된 실험 결과, 모델이 라벨 외에 다른 정보를 노출하지 않더라도 강력한 공격 성능을 보이며, 라벨 노출 시에도 심각한 멤버십 기밀 위험이 존재함을 드러낸다.
Machine learning (ML) has made tremendous progress during the past decade and ML models have been deployed in many real-world applications. However, recent research has shown that ML models are vulnerable to attacks against their underlying training data. One major attack in this field is membership inference the goal of which is to determine whether a data sample is part of the training set of a target machine learning model. So far, most of the membership inference attacks against ML classifiers leverage the posteriors returned by the target model as their input. However, empirical results show that these attacks can be easily mitigated if the target model only returns the predicted label instead of posteriors. In this paper, we perform a systematic investigation of membership inference attack when the target model only provides the predicted label. We name our attack label-only membership inference attack. We focus on two adversarial settings and propose different attacks, namely transfer-based attack and perturbation based attack. The transfer-based attack follows the intuition that if a locally established shadow model is similar enough to the target model, then the adversary can leverage the shadow model's information to predict a target sample's membership. The perturbation-based attack relies on adversarial perturbation techniques to modify the target sample to a different class and uses the magnitude of the perturbation to judge whether it is a member or not. This is based on the intuition that a member sample is harder to be perturbed to a different class than a non-member sample. Extensive experiments over 6 different datasets demonstrate that both of our attacks achieve strong performance. This further demonstrates the severity of membership privacy risks of machine learning models.
연구 동기 및 목표
- 기계학습 모델이 예측 라벨만을 공개할 경우 멤버십 유추 공격이 여전히 효과적인지 조사하는 것.
- 실제 구현 환경에서는 흔히 공개되지 않는 모델의 사후확률에 접근 가능하다는 가정이 공격 연구에 미치는 영향을 메우는 것.
- 실제 적용 조건인 라벨 전용 모델 출력에 대응할 수 있는 실용적인 공격 방법을 개발하는 것.
- 전이 기반 및 펌질 기반 공격이라는 두 가지 다른 공격 환경에서 멤버십 유추의 강건성을 평가하는 것.
- 모델이 라벨 외에 다른 정보를 공개하지 않는 상황에서도 멤버십 기밀 위험이 심각한지 입증하는 것.
제안 방법
- 타겟 모델의 행동을 모방하기 위해 샤로우 모델을 훈련시키고, 그 샤로우 모델의 신뢰도 점수를 활용해 타겟 샘플의 멤버십을 유추하는 전이 기반 공격을 제안한다.
- 샘플의 예측 라벨를 변경하기 위해 필요한 최소한의 펌질을 최소화함으로써 적대적 예제를 생성하고, 펌질의 크기를 멤버십 지표로 사용하는 펌질 기반 공격을 적용한다.
- 타겟 모델이 블랙박스이며, 전체 확률 분포가 아닌 예측된 클래스 라벨만을 반환한다고 가정한다.
- 타겟 모델의 훈련 데이터와 유사한 데이터셋을 기반으로 전이 학습을 통해 샤로우 모델을 훈련시켜, 샤로우 모델의 출력을 통해 정확한 멤버십 유추를 가능하게 한다.
- PGD 스타일의 적대적 최적화를 적용하여 샘플의 예측을 바꾸는 데 필요한 최소 펌질을 계산하며, 더 큰 펌질 크기는 비멤버십 상태를 나타낸다.
- 여섯 개의 다양한 데이터셋에서 공격를 검증하고, 다양한 모델 아키텍처와 데이터 분포 조건에서의 성능를 비교한다.
실험 결과
연구 질문
- RQ1타겟 모델이 신뢰도 점수를 노출하지 않고 예측 라벨만을 반환할 경우 멤버십 유추 공격이 효과적으로 작동할 수 있는가?
- RQ2모델이 예측 라벨 외에 전체 사후확률을 공개할 수 있는 경우와 비교해, 라벨 정보만으로는 멤버십 유추 성능가 어떻게 달라지는가?
- RQ3유사한 데이터로 훈련된 샤로우 모델이 타겟 모델의 행동을 얼마나 정확히 재현할 수 있는가?
- RQ4적대적 펌질의 크기를 사용해 훈련 세트 내 소속 여부를 신뢰할 수 있는 지표로 활용할 수 있는가?
- RQ5다양한 데이터셋과 모델 아키텍처에서 라벨 전용 멤버십 유추 공격의 강건성은 어느 정도인가?
주요 결과
- 전이 기반 공격는 타겟 모델이 라벨만을 반환하는 조건에서도 여러 데이터셋에서 높은 멤버십 유추 정확도(최대 90%)를 달성한다.
- 펌질 기반 공격는 멤버 샘플이 라벨 예측을 변경하기 위해 훨씬 더 큰 펌질이 필요하다는 점을 확인하며, 이는 멤버십 신호로서의 유용성을 입증한다.
- 두 공격 모두 여섯 개의 다양한 데이터셋에서 뛰어난 성능을 보이며, 광범위한 적용 가능성과 강건성을 입증한다.
- 결과적으로 모델이 라벨 외에 다른 정보를 공개하지 않는 조건에서도 멤버십 유추가 심각한 위협으로 남아 있음을 보여주며, 라벨 전용 모델이 기밀을 보장한다고 가정하는 것의 문제를 제기한다.
- 실증적 평가 결과, 공격는 모델 아키텍처나 데이터 분포에 관계없이 효과적으로 작동함을 확인하였으며, 멤버십 기밀 위험이 지속됨을 시사한다.
- 본 연구는 현재의 모델 배포 관행(출력을 라벨로 제한)이 멤버십 유추 위험을 충분히 완화하지 못함을 드러낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.