Skip to main content
QUICK REVIEW

[논문 리뷰] Defensive Distillation is Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|2016. 07. 14.
Adversarial Robustness in Machine Learning참고 문헌 4인용 수 237
한 줄 요약

논문은 방어적 증류가 적대적 예에 대한 강건성을 제공하지 않음을 보여주며; 작은 공격 수정으로 방어적으로 증류된 네트워크에서 표적 오분류가 성공한다(MNIST에서 4.7% 픽셀 변화로 96.4%).

ABSTRACT

We show that defensive distillation is not secure: it is no more resistant to targeted misclassification attacks than unprotected neural networks.

연구 동기 및 목표

  • 방어적 증류가 실제로 신경망을 적대적 예에 대해 강화시키는지 평가한다.
  • 기존의 적대적 공격이 방어적으로 증류된 모델과 상호작용하는 방식을 분석한다.
  • 증류된 네트워크에 대한 Papernot의 L0 공격에 대한 효과적인 수정을 시연한다.
  • 증류를 적용한 MNIST에서 공격 성공률과 픽셀 변화 요구치를 정량화한다.

제안 방법

  • TensorFlow를 사용하여 MNIST에서 9층 네트워크로 방어적 증류를 재구현한다.
  • Papernot의 L0 적대적 공격을 적용하고 증류 네트워크와 baseline 네트워크에서의 공격 동작을 분석한다.
  • 증류 모델에서 증가한 로짓 크기에 맞추어 소프트맥스 입력을 T로 재스케일링하여 공격을 수정한다.
  • 그라디언트 기반 픽셀 선택을 로짓이 아닌 네트워크 출력에 대해 작동하도록 조정한다.
  • T=100일 때 공격 성공률과 평균 픽셀 변화를 평가하고 비증류 기반과 비교한다.

실험 결과

연구 질문

  • RQ1방어적 증류가 표적 적대적 공격의 성공률을 감소시키는가?
  • RQ2공격에 대한 작은 수정이 방어적 증류와 같은 방어를 무력화할 수 있는가?
  • RQ3증류된 네트워크와 표준 네트워크 간에 필요한 픽셀 변화 수가 어떻게 다른가?
  • RQ4온도 T가 증류된 네트워크에 대한 공격 효과에 미치는 영향은 무엇인가?

주요 결과

  • 방어적 증류는 초기 공격의 표면적인 효과를 감소시키지만 수정된 공격에 대해서는 견고하지 않다.
  • T=100일 때 수정된 공격이 증류 네트워크에서 96.4%의 표적 오분류를 달성한다.
  • 평균적으로 증류된 네트워크에서 성공하려면 36.4 픽셀(4.7%)을 변경해야 하는 반면 비증류 기준선에서는 45 픽셀(약 5.86%)이 필요하다.
  • 적절한 재스케일링으로 네트워크의 실제 출력값을 사용하는 적응된 공격이 온도 1에서 100까지의 모든 경우에서 방어적 증류를 무력화한다.
  • 보호되지 않은 네트워크와 비교할 때, 가장 강력하게 테스트된 공격 하에서도 증류 모델은 의미 있는 강건성 증가를 보이지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.