QUICK REVIEW

[논문 리뷰] Defensive Distillation is Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|2016. 07. 14.

Adversarial Robustness in Machine Learning참고 문헌 4인용 수 237

한 줄 요약

논문은 방어적 증류가 적대적 예에 대한 강건성을 제공하지 않음을 보여주며; 작은 공격 수정으로 방어적으로 증류된 네트워크에서 표적 오분류가 성공한다(MNIST에서 4.7% 픽셀 변화로 96.4%).

ABSTRACT

We show that defensive distillation is not secure: it is no more resistant to targeted misclassification attacks than unprotected neural networks.

연구 동기 및 목표

방어적 증류는 초기 공격의 표면적인 효과를 감소시키지만 수정된 공격에 대해서는 견고하지 않다.
T=100일 때 수정된 공격이 증류 네트워크에서 96.4%의 표적 오분류를 달성한다.
평균적으로 증류된 네트워크에서 성공하려면 36.4 픽셀(4.7%)을 변경해야 하는 반면 비증류 기준선에서는 45 픽셀(약 5.86%)이 필요하다.
적절한 재스케일링으로 네트워크의 실제 출력값을 사용하는 적응된 공격이 온도 1에서 100까지의 모든 경우에서 방어적 증류를 무력화한다.
보호되지 않은 네트워크와 비교할 때, 가장 강력하게 테스트된 공격 하에서도 증류 모델은 의미 있는 강건성 증가를 보이지 않는다.

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.