Skip to main content
QUICK REVIEW

[논문 리뷰] Prediction Poisoning: Towards Defenses Against DNN Model Stealing Attacks

Tribhuvanesh Orekondy, Bernt Schiele|arXiv (Cornell University)|2019. 06. 26.
Adversarial Robustness in Machine Learning참고 문헌 26인용 수 65
한 줄 요약

논문은 MAD를 제안하는데, 이는 black-box 예측을 교란하여 도난자의 학습 목표를 오염시키고, 무해한 정확도에 미치는 영향은 최소화하면서 도난된 모델의 정확도를 실질적으로 감소시킨다.

ABSTRACT

High-performance Deep Neural Networks (DNNs) are increasingly deployed in many real-world applications e.g., cloud prediction APIs. Recent advances in model functionality stealing attacks via black-box access (i.e., inputs in, predictions out) threaten the business model of such applications, which require a lot of time, money, and effort to develop. Existing defenses take a passive role against stealing attacks, such as by truncating predicted information. We find such passive defenses ineffective against DNN stealing attacks. In this paper, we propose the first defense which actively perturbs predictions targeted at poisoning the training objective of the attacker. We find our defense effective across a wide range of challenging datasets and DNN model stealing attacks, and additionally outperforms existing defenses. Our defense is the first that can withstand highly accurate model stealing attacks for tens of thousands of queries, amplifying the attacker's error rate up to a factor of 85$ imes$ with minimal impact on the utility for benign users.

연구 동기 및 목표

  • black-box 질의에 의한 모델 기능 도용과 그로 인한 귀중한 DNN 모델에 대한 관련 위험을 동기 부여하고 형식화한다.
  • 공격자의 학습 목표를 오염시키는 예측 교란을 제안하여 방어자의 효용을 유지하는 활성 방어를 제시한다.
  • 유틸리티 및 심플렉스 제약 하에서 교란을 생성하는 실용적 해를 개발한다.
  • 다양한 타깃 모델, 데이터셋, 도용 공격에 걸쳐 방어의 견고성을 증명한다.
  • 비복제성과 공격 완화의 효율성 측면에서 기존 방어 대비 개선점을 확인한다.

제안 방법

  • 공격자의 그래디언트와 방어자의 독살된 그래디언트 사이의 각도 편차를 유틸리티 제약 하에서 최대화하는 방식으로 방어를 형식화한다.
  • 공격자 그래디언트를 방어자의 매개변수에 대한 로그 확률의 대리 야코비안 G로 모델링한다.
  • 포스트eriors 예측 y를 교란하여 y~를 얻고, 이는 확률 심플렉스 내에 있고 교란 예산 ε를 넘지 않으면서 각도 편차를 최대화한다.
  • 그래디언트 기반 최적화를 심플렉스의 극값점을 두 단계로 탐색하고, 원래의 y와 볼록 결합으로 교란을 형성하는 방식으로 근사한다.
  • 상위 1 라벨을 보존하는 MAD-argmax 변형을 도입하여 교란이 argmax와 일치하도록 제약한다.
  • 여러 데이터셋의 여섯 가지 타깃 모델과 네 가지 도용 공격에 대해 평가하고, 역시역시 사인함, 무작위 잡음, DP-SGD 등과 같은 기준 방어와 비교한다.

실험 결과

연구 질문

  • RQ1예측에 대한 적극적 교란이 방어자의 유틸리티를 과도하게 해치지 않으면서 도난된 모델의 성능을 효과적으로 저하시킬 수 있는가?
  • RQ2방어자의 및 공격자의 학습 그래디언트 간의 각도 편차를 최대화하는 것이 현실적인 예산 하에서 다양한 모델 도용 공격을 견고하게 약화시키는가?
  • RQ3MAD가 비복제성, 유틸리티, 교란 크기 측면에서 기존의 교란 기반 방어와 어떻게 비교되는가?
  • RQ4CIFAR/CUB200에서 VGG16과 같은 더 강한 DNN을 포함한 다양한 데이터셋과 타깃 아키텍처에서도 방어가 효과적인가?
  • RQ5공격자들이 합리적으로 취할 수 있는 반대책은 무엇이며, MAD는 그러한 역공격에 대해 얼마나 강건한가?

주요 결과

  • MAD는 모든 테스트 데이터셋과 공격에서 공격자 성능을 일관되게 감소시키며, 낮은 교란에서 방어자의 정확도는 무방어 수준에 근접하게 유지된다.
  • MNIST에서 방어는 공격자의 정확도를 최대 약 절반까지 감소시킬 수 있는데(예: jbtop3의 약 52% 감소) 방어자 정확도 손실은 1%도 되지 않는다.
  • CUB200과 같은 데이터셋에서 가장 강력한 공격의 정확도가 크게 감소하는데(예: Knockoff 공격의 23% 감소) 방어자 유틸리티 손실은 약 2% 수준이다.
  • MAD-argmax는 상위 1 라벨을 보존하면서도 여전히 공격자 성능을 저하시키며, 교란 정도를 낮추면서도 비복제성 측면에서 경쟁력을 유지한다.
  • MAD는 비복제성 측면에서 동일하거나 더 나은 성능으로, 역s-시그모이드, 무작위 노이즈, DP-SGD 같은 기준 방어보다 교란이 작다.
  • 배치 연구에서 그래디언트 기반 G와 표적 극값 교란의 사용이 핵심이며, 무작위 교란은 성능이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.