[논문 리뷰] AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning
AttriGuard는 적대적 머신 러닝을 사용한 속성 추론 공격에 대한 두 단계의 노이즈 추가 방어를 정의하며, 낮은 유용성 손실과 강력한 공격 완화를 달성한다.
Users in various web and mobile applications are vulnerable to attribute inference attacks, in which an attacker leverages a machine learning classifier to infer a target user's private attributes (e.g., location, sexual orientation, political view) from its public data (e.g., rating scores, page likes). Existing defenses leverage game theory or heuristics based on correlations between the public data and attributes. These defenses are not practical. Specifically, game-theoretic defenses require solving intractable optimization problems, while correlation-based defenses incur large utility loss of users' public data. In this paper, we present AttriGuard, a practical defense against attribute inference attacks. AttriGuard is computationally tractable and has small utility loss. Our AttriGuard works in two phases. Suppose we aim to protect a user's private attribute. In Phase I, for each value of the attribute, we find a minimum noise such that if we add the noise to the user's public data, then the attacker's classifier is very likely to infer the attribute value for the user. We find the minimum noise via adapting existing evasion attacks in adversarial machine learning. In Phase II, we sample one attribute value according to a certain probability distribution and add the corresponding noise found in Phase I to the user's public data. We formulate finding the probability distribution as solving a constrained convex optimization problem. We extensively evaluate AttriGuard and compare it with existing methods using a real-world dataset. Our results show that AttriGuard substantially outperforms existing methods. Our work is the first one that shows evasion attacks can be used as defensive techniques for privacy protection.
연구 동기 및 목표
- 소셜 미디어, 추천 시스템, 모바일 앱에서 속성 추론 공격으로 인한 프라이버시 우려를 제기한다.
- 계산적으로 다룰 수 있고 작은 유용성 손실을 수반하는 실용적인 방어를 개발한다.
- 공격자의 모델이나 사용자의 실제 속성을 알 필요 없이 두 단계 방어(노이즈 최적화 및 확률적 노이즈 혼합)를 제안한다.
- evation(회피) 공격을 속성 추론 공격에 대한 방어 기법으로 활용하는 것을 확장한다.
제안 방법
- Phase I은 노이즈-유형 정책 아래 각 가능한 속성 값 i에 대해 최소 노이즈 r_i를 찾기 위해 회피 공격을 적용하고 C(x + r_i) = i를 만족한다.
- Phase II는 메커니즘을 m개의 대표 노이즈 {r_1,...,r_m}의 분포로 다루고 유용성 예산의 제약 하에 KL(p||q)를 최소화하는 볼록 최적화로 방어를 모델링한다.
- 방어자는 공격자의 행동을 시뮬레이션하기 위해 분류기 C를 학습하고 전이성(방어 하에서의 공격 성공)을 사용하여 노이즈 설계에 방향을 제시한다.
- Phase I은 Jacobian 기반의 중요도 맵에서 영감을 받은 정책 인식 노이즈 찾기 알고리즘(PANDA)을 사용하여 Modify_Exist, Add_New, 또는 Modify_Add 정책 하에서 노이즈를 선택하고 적용한다.
- Phase II는 노이즈의 확률 분포를 결정하여KL 발산을 목표 분포 p에 가깝게 하되 기대 유틸리티 손실을 한도로 제한하는 제약된 볼록 최적화를 해결한다.
- 이 방법은 최종 메커니즘 M*에서 최대 m개의 0이 아닌 매개변수를 갖는 실현 가능한 방어를 제공한다.
실험 결과
연구 질문
- RQ1회피 공격을 속성 추론 공격에 대한 방어로 재활용할 수 있는가?
- RQ2공격자의 모델이나 사용자의 실제 속성을 알지 못하더라도 프라이버시를 보호하고 유용성을 보존하는 노이즈 추가 메커니즘을 어떻게 설계할 수 있는가?
- RQ3실용적인 노이즈-유형 정책하에서 공격자 추론 정확도를 최소화하기 위해 노이즈를 선택하는 최적의 방법은 무엇인가?
- RQ4두 단계의 AttriGuard 프레임워크가 실제 데이터에서 방어에 무지한 공격 및 방어에 민감한 공격에 얼마나 효과적인가?
주요 결과
- AttriGuard는 유용성 손실을 작게 유지하면서 공격자 추론 정확도를 크게 감소시킨다.
- Phase I에서의 적응형 회피 공격은 정책 제약하에서 기존의 노이즈 찾기 방법보다 우수하다.
- 실제 구글 플레이 데이터셋에서 평균적으로 최대 4개의 평가 점수를 수정하는 것이 여러 공격에서 공격자 정확도를 약 75% 정도 감소시킨다.
- Phase II의 KKT 기반 해를 가진 볼록 최적화는 노이즈 혼합을 효율적으로 계산하며 목표 분포에 근접한 유한한 유용성 손실로 정합한다.
- AttriGuard는 회피 공격이 프라이버시 보호를 위한 방어 기법으로 사용될 수 있음을 보여주는 최초의 연구이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.