QUICK REVIEW
[논문 리뷰] Extending Defensive Distillation
Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|2017. 05. 15.
Adversarial Robustness in Machine Learning참고 문헌 19인용 수 84
한 줄 요약
본 논문은 dropout 기반 불확실성 및 이상치 클래스(outlier class)를 활용한 확장된 디펜시브 디스틸레이션(defensive distillation) 접근법을 제안하여 적대적 예시에 대한 강건성을 개선하고, 화이트박스 및 블랙박스 공격 하에서 평가한다.
ABSTRACT
Machine learning is vulnerable to adversarial examples: inputs carefully modified to force misclassification. Designing defenses against such inputs remains largely an open problem. In this work, we revisit defensive distillation---which is one of the mechanisms proposed to mitigate adversarial examples---to address its limitations. We view our results not only as an effective way of addressing some of the recently discovered attacks but also as reinforcing the importance of improved training techniques.
연구 동기 및 목표
- 머신러닝에서 적대적 예시에 대한 강건한 방어의 필요성을 동기화한다.
- 그래디언트 마스킹 및 전달 가능성의 취약점을 다루기 위해 defensive distillation을 확장한다.
- 증류된 모델 학습 중 불확실성 인식 레이블링과 이상치 클래스 도입.
- MNIST를 사용하여 화이트박스 및 블랙박스 공격 시나리오에서 강건성을 평가한다.
- 정확도, 거짓 양성, 적대적 예시의 탐지/회복 간의 트레이드오프를 평가한다.
제안 방법
- 표준 데이터와 원래 레이블로 첫 번째 모델 f를 학습하고, 그 예측을 이용해 두 번째 모델 f^d를 레이블링한다.
- 증류된 모델의 소프트맥스 온도 T=1을 유지하고 출력에 이상치 클래스를 추가한다.
- 드롭아웃 기반의 다중 확률적 순전파를 사용해 f의 예측 불확실성을 정량화하고 로짓의 평균과 분산을 얻는다.
- 올바른 클래스 확률과 정규화된 불확실성을 결합해 이상치 클래스에 확률 질량을 배분하는 새로운 레이블 벡터 k(x)를 정의한다.
- 새로운 레이블 벡터로 f^d를 학습시키고, 올바른 클래스와 다른 클래스 간의 오위-ranking을 벌주하는 보조 손실 항을 포함해 불확실성 처리를 강화한다.
- 입력 전 0.2, 합성곱 뒤 0.5로 설정된 드롭아웃으로 MNIST에서 화이트박스 및 블랙박스 공격(FGM, JSMA, AdaDelta)에 대한 강건성을 평가한다.
실험 결과
연구 질문
- RQ1확장된 디펜스 디스틸레이션은 원래의 디펜스 디스틸레이션에 비해 그래디언트 기반 공격과 전달 가능성 공격에 대한 민감도를 감소시키는가?
- RQ2불확실성 인식 레이블링과 이상치 클래스가 합법 입력의 정확도를 유지하면서 적대적 예시의 탐지 및 회복을 개선할 수 있는가?
- RQ3그래디언트 마스킹에 의존하지 않고 화이트박스와 블랙박스 위협 모델 모두에서 강건성이 유지되는가?
- RQ4알파(불확실성 가중치), 드롭아웃 패스 수 N, 정적 데이터 및 적대적 예시에 대한 모델 성능 간의 트레이드오프는 무엇인가?
주요 결과
- 증류된 모델은 합법적 입력에서 97.28% 정확도를 달성했고 방어되지 않은 기본값은 98.41%이다.
- 거짓 양성은 1% 미만으로 유지되었다.
- 방어되지 않은 모델은 적대적 입력에서 높은 오분류율을 보였다(FGM 90.8%, JSMA 92.2%, AdaDelta 96.0%).
- 확장된 방어는 테스트 포인트 주변의 인근에서 화이트박스 공격에 대한 강건성을 개선하고 블랙박스 강건성도 유사하게 유지하여 그래디언트 마스킹 문제를 완화한다.
- 알파를 높이면 적대적 예시의 탐지/회복이 증가하지만 합법 입력에서의 거짓 양성도 증가할 수 있다.
- 불확실성 추정에 대해 약 20회의 다중 드롭아웃 패스 사용은 강건성 지표의 수렴을 이끈다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.