[논문 리뷰] Label-Only Membership Inference Attacks
이 논문은 입력 섭동하에서 예측 라벨의 강건성을 이용해 학습 데이터 멤버십을 추론하는 라벨-전용 멤버십 추론 공격을 제시한다. 이는 신뢰도 기반 공격과 같거나 더 우수하게 작동하며, 신뢰도 마스킹 방어를 깨뜨린다.
Membership inference attacks are one of the simplest forms of privacy leakage for machine learning models: given a data point and model, determine whether the point was used to train the model. Existing membership inference attacks exploit models' abnormal confidence when queried on their training data. These attacks do not apply if the adversary only gets access to models' predicted labels, without a confidence measure. In this paper, we introduce label-only membership inference attacks. Instead of relying on confidence scores, our attacks evaluate the robustness of a model's predicted labels under perturbations to obtain a fine-grained membership signal. These perturbations include common data augmentations or adversarial examples. We empirically show that our label-only membership inference attacks perform on par with prior attacks that required access to model confidences. We further demonstrate that label-only attacks break multiple defenses against membership inference attacks that (implicitly or explicitly) rely on a phenomenon we call confidence masking. These defenses modify a model's confidence scores in order to thwart attacks, but leave the model's predicted labels unchanged. Our label-only attacks demonstrate that confidence-masking is not a viable defense strategy against membership inference. Finally, we investigate worst-case label-only attacks, that infer membership for a small number of outlier data points. We show that label-only attacks also match confidence-based attacks in this setting. We find that training models with differential privacy and (strong) L2 regularization are the only known defense strategies that successfully prevents all attacks. This remains true even when the differential privacy budget is too high to offer meaningful provable guarantees.
연구 동기 및 목표
- 하드 라벨만 접근 가능한 상태에서 멤버십 추론 위협에 대한 동기를 제시하고 이를 형식화한다.
- 섞인 입력과 강건성을 활용하여 멤버십을 밝히는 라벨-전용 공격을 개발한다.
- 라벨-전용 공격과 신뢰도 기반 공격을 비교하고 일반적인 방어 수단을 평가한다.
- 표준 정규화, 데이터 확장, 차등 프라이버시가 멤버십 누출에 어떤 영향을 미치는지 평가한다.
제안 방법
- baseline gap attack를 레이블 정보만 사용하는 간단한 예측기로 정의한다.
- 레이블-전용 공격을 (i) 멤버십을 탐지하기 위한 데이터 증강 프록시, (ii) 레이블-전용 섭동과 적대적 유사 질의에 의한 결정 경계까지의 거리 프록시, (iii) 신호를 개선하기 위한 다중 질의의 조합에 기반하여 도입한다.
- 데이터 증강(회전, 평행이동 등)과 경계 거리 측정치를 사용해 프록시 신뢰도를 생성한다.
- 레이블-전용 적대적 워크(HopSkipJump) 및 무작위성/잡음 기반 강건성 테스트를 사용해 결정 경계까지의 거리를 추정한다.
- 섀도우 모델에서 결정 임계치를 조정하고 이를 대상 모델로 이전한다.
- 여러 데이터셋 및 모델 유형에 걸친 공격 질의 비용과 효과를 평가한다.
실험 결과
연구 질문
- RQ1라벨-전용 공격은 여러 데이터셋에서 신뢰도 벡터 공격과 일치하거나 이를 능가할 수 있으며, 결합될 때 더 나아갈 수 있다.
- RQ2confidence-masking 방어(MemGuard 및 적대적 정규화)가 라벨-전용 공격으로부터 보호하지 못하는가?
- RQ3라벨-전용 공격의 질의 복잡도와 실제 비용은 어느 정도인가?
- RQ4어떤 방어가 라벨-전용 및 신뢰도 기반 공격 하에서 멤버십 누출을 효과적으로 완화하는가?
- RQ5표준 정규화 기법과 차등 프라이버시가 라벨-전용 멤버십 누출에 어떤 영향을 미치는가?
주요 결과
- 라벨-전용 공격은 여러 데이터셋에서 신뢰도 벡터 공격과 일치하거나 이를 능가할 수 있으며, 결합될 때 더 나아갈 수 있다.
- MemGuard와 적대적 정규화 같은 신뢰도 마스킹 방어는 라벨-전용 공격으로부터 보호하지 못한다.
- 훈련 시 데이터 증강은 라벨-전용 공격으로 인한 누출을 증가시킬 수 있으며, 이는 과적합을 줄이고 정확도를 향상시킴에도 불구하고 그렇다.
- 강한 L2 정규화 또는 차등 프라이버시 학습은 누출을 의미 있게 줄일 수 있으나 종종 정확도와의 트레이드-오프가 있다.
- 전이 학습은 일부 설정에서 누출을 줄일 수 있지만, 전체 미세 조정은 누출을 증가시킬 수 있고, 마지막 층만 조정하는 것은 일반적으로 누출을 줄이는 경향이 있다.
- 수천 건 수준의 질의 예산만으로도 강력한 MI 신호를 얻을 수 있으며, 심지어 작은 섭동(회전, 평행이동)도 의미 있는 누출을 초래한다.
- 이상치 MI 및 최악의 경우 입력 누출에 대해 논의되며, 보호는 단지 신뢰도 마스킹을 넘는 방어를 필요로 한다고 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.