[논문 리뷰] Defending Against Machine Learning Model Stealing Attacks Using Deceptive Perturbations
이 논문은 모델 출력 확률에 속임수 효과가 있는 교란 항목을 삽입하여 기계학습 모델 도용 공격에 대비하는 방식을 제안한다. 이 방법은 상위 1개 정확도를 유지하면서 공격자가 확률 값을 기각하도록 유도하며, 방어에 인지된 공격자라도 최소 20% 이상의 정확도 저하 또는 최대 64배의 쿼리 비용 증가를 유도한다. 이로 인해 보호된 모델의 기능성에 거의 영향을 주지 않으면서도 효과적인 방어가 가능하다.
Machine learning models are vulnerable to simple model stealing attacks if the adversary can obtain output labels for chosen inputs. To protect against these attacks, it has been proposed to limit the information provided to the adversary by omitting probability scores, significantly impacting the utility of the provided service. In this work, we illustrate how a service provider can still provide useful, albeit misleading, class probability information, while significantly limiting the success of the attack. Our defense forces the adversary to discard the class probabilities, requiring significantly more queries before they can train a model with comparable performance. We evaluate several attack strategies, model architectures, and hyperparameters under varying adversarial models, and evaluate the efficacy of our defense against the strongest adversary. Finally, we quantify the amount of noise injected into the class probabilities to mesure the loss in utility, e.g., adding 1.26 nats per query on CIFAR-10 and 3.27 on MNIST. Our evaluation shows our defense can degrade the accuracy of the stolen model at least 20%, or require up to 64 times more queries while keeping the accuracy of the protected model almost intact.
연구 동기 및 목표
- 클라우드 기반 추론 API를 통한 기계학습 모델 도용 공격 증가에 대응하기 위해, 공격자가 모델 신뢰도 점수를 활용해 기술 유출 모델을 복제하는 것을 방지한다.
- 보호된 모델의 기능성을 유지하면서 도용된 모델의 성능을 크게 떨어뜨리는 것을 목표로 한다.
- 공격자가 방어 메커니즘을 알고 있더라도 확률 기반 쿼리를 포기하고 더 느린 레이블 전용 공격으로 전환하도록 유도한다.
- 노이즈 역전환 및 대체 손실 함수를 포함한 고도화된 방어 인지 공격에 대한 방어의 강건성을 평가한다.
제안 방법
- 정확한 예측 클래스를 유지하면서 신뢰도 점수를 왜곡하기 위해 모델 출력 확률에 적용되는 가역적이고 비선형적인 교란 레이어인 '역시그모이드(Reverse Sigmoid)'를 도입한다.
- softmax 이전의 로짓에 제어된 노이즈를 삽입함으로써 공격자에게 혼동을 주는 확률 값을 생성하면서도, 정상 사용자에게는 상위 1개 예측이 유지되도록 한다.
- 교란이 모호하도록 설계되어 여러 원본 로짓 값이 동일한 확률 값을 갖게 하여 기울기 기반 모델 역전환 및 전이 학습을 방해한다.
- 다양한 공격 전략을 사용해 방어를 평가한다: 확률 기반 쿼리(예: Sample), 레이블 전용 쿼리(Argsmax), 노이즈 역전환 및 MSE 손실 최적화와 같은 방어 인지 공격.
- 실제 세계의 역설계 시도를 시뮬레이션하기 위해 선형 회귀 및 다층 퍼셉트론(MLP) 모델을 사용해 교란을 복원해 본다.
- KL 발산과 nats를 통해 기능성 손실을 정량화하고, 도용 모델의 성공률을 모델 일치도, 코사인 유사도, 정확도 등을 통해 측정한다.
실험 결과
연구 질문
- RQ1확률 기반 쿼리를 사용하는 공격자에게도 상위 1개 정확도를 유지하는 방어가 도용된 모델의 성능을 저하시킬 수 있는가?
- RQ2방어 메커니즘을 알고 있는 공격자도 이를 역전환하거나 적응하려 할 때 방어의 효과는 어떠한가?
- RQ3성공적인 모델 도용을 위해 필요한 쿼리 예산은 어느 정도 증가하는가?
- RQ4공격자는 역전환 공격를 통해 원본 모델의 확률을 복원할 수 있는가? 이러한 공격의 성능은 어떠한가?
- RQ5다양한 데이터셋, 아키텍처, 공격 파rameter에 대해 방어의 성능은 어떻게 나타나는가?
주요 결과
- 모든 평가된 데이터셋과 아키텍처에서 방어는 도용된 모델의 정확도를 최소 20% 이상 저하시키며, 강력한 공격 조건에서도 효과를 유지한다.
- 확률 점수를 기각할 경우 공격자가 성능을 유사하게 확보하기 위해 최대 64배의 쿼리가 더 필요해지며, 이는 argmax 전용 기준선으로 전환하게 만든다.
- CIFAR-10에서는 쿼리당 1.26 nats의 노이즈를 삽입하고, MNIST에서는 3.27 nats를 삽입하며, 보호된 모델의 정확도에 거의 영향을 주지 않는다.
- 방어 매개변수를 완전히 알고 있음에도 불구하고 공격자는 유용한 확률 분포를 복원하지 못한다. MLP 역전환은 0.22의 일치도를 기록하며, argmax 전용 기준선의 0.78에 크게 못 미친다.
- 역시그모이드 방어는 동일한 방어 레이어나 MSE 손실을 사용하는 공격에도 효과를 유지한다. 이는 교란 매핑의 본질적 모호성 덕분이다.
- 정상 사용자에게는 높은 기능성을 유지하면서도 도용된 모델의 일반화 능력과 전이 가능성은 크게 저하되며, 특히 적대적 예제 생성에 있어 두드러진 효과를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.