QUICK REVIEW

[논문 리뷰] Defending Model Inversion and Membership Inference Attacks via Prediction Purification

Ziqi Yang, Bin Shao|arXiv (Cornell University)|2020. 05. 08.

Adversarial Robustness in Machine Learning참고 문헌 71인용 수 50

한 줄 요약

본 논문은 모델 역정보 및 멤버십 추론 공격에 방어하기 위해 타깃 모델의 예측 점수를 정제하는 단일 프레임워크를 제안하며, 선택적 적대적 구성요소를 갖춘 자동인코더 정제기를 사용해 전문화가 가능하다.

ABSTRACT

Neural networks are susceptible to data inference attacks such as the model inversion attack and the membership inference attack, where the attacker could infer the reconstruction and the membership of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a unified approach, namely purification framework, to defend data inference attacks. It purifies the confidence score vectors predicted by the target classifier by reducing their dispersion. The purifier can be further specialized in defending a particular attack via adversarial learning. We evaluate our approach on benchmark datasets and classifiers. We show that when the purifier is dedicated to one attack, it naturally defends the other one, which empirically demonstrates the connection between the two attacks. The purifier can effectively defend both attacks. For example, it can reduce the membership inference accuracy by up to 15% and increase the model inversion error by a factor of up to 4. Besides, it incurs less than 0.4% classification accuracy drop and less than 5.5% distortion to the confidence scores.

연구 동기 및 목표

두 가지 데이터-추론(attacks)인 모델 역정보와 멤버십 추론에 대한 방어를 동기화하고 통합한다.
confidence score 벡터의 분산을 줄여 공격 효율성을 낮춘다.
분류기 유용성을 거의 손실 없이 보존하고 점수 왜곡도도 제한한다.
적대적 학습을 통해 개별 공격에 대한 정제기의 전문화를 가능하게 한다.
벤치마크 데이터셋과 아키텍처에서 경험적 효과를 입증한다.

제안 방법

정제기 G(자동인코더)가 잠재적 비회원 패턴으로 재구성/신뢰도 점수를 향상시킨다.
G를 기준 비회원 데이터셋에서 재구성 손실을 최소화하고 예측 라벨을 보존하도록 학습한다.
모델 역정보를 위한 전문화: G와 이를 통해 정제된 점수로 입력을 재구성하려는 적대적 모델 H와의 최소-최대 게임을 수행한다.
멤버십 추론을 위한 전문화: 실제 점수와 재구성된 점수를 구분하는 판별기 I를 두고, I를 속이도록 G를 학습시킨다.
선택적으로 두 전문화를 결합하여 G, H, I를 함께 학습시키고 유용성 보존 하에 두 공격에 대해 방어한다.

실험 결과

연구 질문

RQ1모델 역정보 공격과 멤버십 추론 공격은 연결되어 있으며 단일 정제 방식으로 두 공격을 모두 방어할 수 있는가?
RQ2예측 점수 정제가 분산을 줄여 두 공격 모두를 완화하면서 분류 정확도를 보존할 수 있는가?
RQ3적대적 학습을 통한 전문화된 정제가 각 공격에 대한 방어 효과에 어떤 영향을 미치는가?
RQ4제안된 정제 프레임워크는 정확도 손실과 효율성 면에서 기존 방어와 어떻게 비교되는가?

주요 결과

정제는 신뢰도 점수 벡터의 분산을 줄여 두 공격에 대한 공격 효율성을 감소시킨다.
하나의 공격에 전문화될 때 정제기가 자연스럽게 다른 공격에 대한 방어도 향상시킨다.
멤버십 추론 정확도는 정제를 통해 최대 15%까지 감소시킬 수 있다.
모델 역정보 오류는 최대 4배까지 증가시킬 수 있다.
분류 정확도 손실은 0.4% 이내, 정제 시 신뢰도 점수 왜곡은 5.5% 이내이다.
예측 시간은 MemGuard보다 훨씬 빠르다(예: 보고된 비교에서 4,636배 빠름).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.