Skip to main content
QUICK REVIEW

[논문 리뷰] Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples

Guanhong Tao, Shiqing Ma|arXiv (Cornell University)|2018. 10. 26.
Adversarial Robustness in Machine Learning참고 문헌 27인용 수 63
한 줄 요약

논문은 AmI를 제안합니다. 이는 얼굴 인식에 대한 적대적 샘플 탐지기로서, 양방향 특성-뉴런 대응을 활용해 특성 주도 모델을 생성하고, 7가지 공격 유형에서 약 94% 탐지 정확도와 약 9.9%의 허위 양성으로_feature squeezing_보다 우수하게 성능을 달성합니다.

ABSTRACT

Adversarial sample attacks perturb benign inputs to induce DNN misbehaviors. Recent research has demonstrated the widespread presence and the devastating consequences of such attacks. Existing defense techniques either assume prior knowledge of specific attacks or may not work well on complex models due to their underlying assumptions. We argue that adversarial sample attacks are deeply entangled with interpretability of DNN models: while classification results on benign inputs can be reasoned based on the human perceptible features/attributes, results on adversarial samples can hardly be explained. Therefore, we propose a novel adversarial sample detection technique for face recognition models, based on interpretability. It features a novel bi-directional correspondence inference between attributes and internal neurons to identify neurons critical for individual attributes. The activation values of critical neurons are enhanced to amplify the reasoning part of the computation and the values of other neurons are weakened to suppress the uninterpretable part. The classification results after such transformation are compared with those of the original model to detect adversaries. Results show that our technique can achieve 94% detection accuracy for 7 different kinds of attacks with 9.91% false positives on benign inputs. In contrast, a state-of-the-art feature squeezing technique can only achieve 55% accuracy with 23.3% false positives.

연구 동기 및 목표

  • 해당 공격 지식에 의존하기보다 해석가능성을 통해 적대적 샘플 탐지의 필요성을 제시합니다.
  • 인간 얼굴 속성들과 내부 뉴런 간의 강하게 상관된 속성 증거를 추출합니다.
  • 특성 관련 뉴런을 강화하고 다른 뉴런을 약화시키는 특성-주도 모델을 구축하여 불일치를 드러냅니다.
  • 여러 공격 유형에서 현 상태의 최첨단 특징 압축(feature squeezing)과 탐지 성능을 비교합니다.

제안 방법

  • 속성 증거를 인간이 지각 가능한 얼굴 속성과 뉴런 활성 간의 양방향 추론을 통해 강하게 상관된 뉴런으로 정의합니다.
  • 층 간 증거 집합을 식별하기 위해 속성 치환 및 보존을 사용합니다.
  • 뉴런 가중 변환으로 증거 뉴런을 강화하고 비증거 뉴런을 약화시켜 층별로 특성-주도 모델을 구성합니다.
  • 활성화에 대해 해석 불가능한 특성을 추가로 억제하기 위해 속성 보존 변환을 적용합니다.
  • 테스트 입력에서 원모델과 특성-주도 모델을 나란히 실행하여 불일치가 적대적 입력을 시사합니다.

실험 결과

연구 질문

  • RQ1얼굴 속성과 내부 뉴런 간의 양방향 대응이 얼굴 인식 DNN에서 속성 증거를 견고하게 식별할 수 있는가?
  • RQ2모델을 속성 증거를 강조하도록 변형하는 것이 무분별한 허위 양성 증가 없이 적대적 샘플 탐지 성능을 개선하는가?
  • RQ3AmI가 특징 압축과 같은 최첨단 방어와 비교하여 다양한 공격 유형에서 어떤 성능을 보이는가?

주요 결과

  • AmI는 7가지 공격 유형에서 약 94%의 탐지 정확도와 정상 입력에서 9.91%의 허위 양성을 달성합니다.
  • 동일 설정에서 Feature squeezing은 55%의 정확도와 23.32%의 허위 양성으로 AmI가 이 맥락에서 우수한 성능을 보임을 시사합니다.
  • 특성 증거 추출은 특정 속성을 제외해도 탐지 정확도에서 5% 미만의 감소로 견고함을 유지합니다.
  • 증거 추출에 대한 양방향 추론은 한 방향 접근(치환만 혹은 보존만)보다 허위 양성 감소에서 우수합니다.
  • 이 방법은 VGG-Face에서 VF, LFW, CelebA의 세 데이터세트로 시연되며 GitHub에서 공개됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.