QUICK REVIEW

[논문 리뷰] Towards the Infeasibility of Membership Inference on Deep Models

Shahbaz Rezaei, Xin Liu|arXiv (Cornell University)|2020. 05. 27.

Adversarial Robustness in Machine Learning참고 문헌 11인용 수 4

한 줄 요약

이 논문은 현재의 멤버십 추론(MI) 공격가 실제로 깊이 학습 모델의 보안 취약성을 약화시키는 데서 기인한 것으로 보이지만, 실제로는 주로 잘못 분류된 훈련 샘플들에 대해만 중간 정도의 정확도를 보이며, 이는 소수이자 신뢰할 수 없는 데이터 부분에 국한되어 있음을 보여준다. 저자들은 깊이 학습 모델의 출력이 훈련 샘플과 비훈련 샘플 간에 대부분 구분되지 않음을 입증하며, 더 깊거나 과적합된 모델이 반드시 더 취약한 것은 아니며, 일반적으로 기억화와 모델의 취약성에 대한 일반적인 가정을 뒤집는다.

ABSTRACT

Recent studies propose membership inference (MI) attacks on deep models. Despite the moderate accuracy of such MI attacks, we show that the way the attack accuracy is reported is often misleading and a simple blind attack which is highly unreliable and inefficient in reality can often represent similar accuracy. We show that the current MI attack models can only identify the membership of misclassified samples with mediocre accuracy at best, which only constitute a very small portion of training samples. We analyze several new features that have not been explored for membership inference before, including distance to the decision boundary and gradient norms, and conclude that deep models' responses are mostly indistinguishable among train and non-train samples. Moreover, in contrast with general intuition that deeper models have a capacity to memorize training samples, and, hence, they are more vulnerable to membership inference, we find no evidence to support that and in some cases deeper models are often harder to launch membership inference attack on. Furthermore, despite the common belief, we show that overfitting does not necessarily lead to higher degree of membership leakage. We conduct experiments on MNIST, CIFAR-10, CIFAR-100, and ImageNet, using various model architecture, including LeNet, ResNet, DenseNet, InceptionV3, and Xception. Source code: this https URL}{\color{blue} {this https URL}.

연구 동기 및 목표

보고된 정확도에 기반해 깊이 학습 모델이 멤버십 추론 공격에 매우 취약하다는 일반적인 믿음을 도전하기 위해.
일반적인 직관과는 반대로 더 깊거나 과적합된 모델이 멤버십 누출에 더 취약한지 조사하기 위해.
결정 경계까지의 거리 및 기울기 노름과 같은 새로운 특징들이 멤버십 추론에 얼마나 효과적인지 평가하기 위해.
현재의 MI 공격 평가 지표가 신뢰할 수 없는 소규모 데이터 부분에 의존함으로써 오해의 소지가 있는지 평가하기 위해.

제안 방법

기존의 MI 모델의 실제 성능을 평가하기 위한 기준으로 사용하기 위해, 무작위로 소속 여부를 추측하는 블라인드 멤버십 추론 공격을 제안한다.
모델의 구분 가능성 평가를 위해 L2 거리와 기울기 노름 크기와 같은 새로운 특징을 도입한다.
MNIST, CIFAR-10, CIFAR-100, ImageNet 등의 다양한 데이터셋과 LeNet, ResNet, DenseNet, InceptionV3, Xception 등의 아키텍처를 포함한 종합적인 실험 설정을 구현한다.
멤버십 누출의 진정한 범위를 분리하기 위해 잘못 분류된 샘플과 올바르게 분류된 샘플에 대해 별도로 모델 행동을 분석한다.
모델의 깊이와 과적합 수준에 따라 공격 성능을 비교하여 멤버십 추론 가능성에 미치는 영향을 평가한다.
통계적 분석을 통해 기존의 MI 공격 정확도를 블라인드 기준과 비교하여, 실제 세계 데이터에서 보고된 정확도가 종종 무작위 추측보다 유의미하게 높지 않음을 입증한다.

실험 결과

연구 질문

RQ1현행 멤버십 추론 공격가 잘못 분류된 샘플 외의 실제 훈련 데이터에서 얼마나 성공적인가?
RQ2더 깊거나 과적합된 모델이 일반적으로 예상하는 바와 같이 더 높은 멤버십 누출을 보이는가?
RQ3결정 경계까지의 거리나 기울기 노름과 같은 새로운 특징들이 멤버십 추론 성능을 향상시킬 수 있는가?
RQ4간단한 블라인드 기준과 비교했을 때 보고된 공격 정확도는 얼마나 신뢰할 수 있는가?
RQ5실제로 깊이 학습 모델의 훈련 샘플과 비훈련 샘플에 대한 반응은 본질적으로 구분 가능한가?

주요 결과

멤버십 추론 공격는 주로 잘못 분류된 훈련 샘플을 대상으로 하기 때문에 중간 정도의 정확도를 보이며, 이는 훈련 데이터의 매우 소수에 해당한다.
제안된 블라인드 공격—무작위로 소속 여부를 추측하는 방식—은 종종 최첨단 MI 모델과 유사한 정확도를 달성하며, 이는 보고된 정확도가 오해의 소지가 있으며 신뢰성이 떨어짐을 시사한다.
깊이 학습 모델의 출력은 특히 올바르게 분류된 입력에 대해선 훈련 샘플과 비훈련 샘플 간에 대부분 구분되지 않으며, 이는 본질적인 멤버십 누출이 제한적임을 시사한다.
더 깊은 모델이 더 취약하다는 일관된 증거는 없으며, 일부 경우에서는 공격하기 더 어려운 편이다.
과적합이 반드시 더 높은 멤버십 누출로 이어지는 것은 아니며, 일반적으로 기억화가 공격 성공률을 높인다고 가정하는 것과 모순된다.
결정 경계까지의 거리나 기울기 노름과 같은 특징들은 멤버십 추론 성능을 유의미하게 향상시키지 못하며, 이는 모델의 반응이 신뢰성 있게 구분되지 않음을 추가로 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.