Skip to main content
QUICK REVIEW

[논문 리뷰] On Adaptive Attacks to Adversarial Example Defenses

Florian Tramèr, Nicholas Carlini|arXiv (Cornell University)|2020. 02. 19.
Adversarial Robustness in Machine Learning참고 문헌 58인용 수 141
한 줄 요약

본 논문은 최근의 13가지 적대적 방어를 신중하게 조정된 적응적 공격으로 우회할 수 있음을 보여주고, 그러한 평가를 수행하기 위한 상세한 방법론을 제시한다.

ABSTRACT

Adaptive attacks have (rightfully) become the de facto standard for evaluating defenses to adversarial examples. We find, however, that typical adaptive evaluations are incomplete. We demonstrate that thirteen defenses recently published at ICLR, ICML and NeurIPS---and chosen for illustrative and pedagogical purposes---can be circumvented despite attempting to perform evaluations using adaptive attacks. While prior evaluation papers focused mainly on the end result---showing that a defense was ineffective---this paper focuses on laying out the methodology and the approach necessary to perform an adaptive attack. We hope that these analyses will serve as guidance on how to properly perform adaptive attacks against defenses to adversarial examples, and thus will allow the community to make further progress in building more robust models.

연구 동기 및 목표

  • 기존의 적응적 평가가 방어의 강인성을 입증하기에 충분하지 않은 경우가 많음을 입증한다.
  • 방어에 대해 강력한 적응적 공격을 설계하기 위한 재현 가능하고 단계별 방법론을 개발한다.
  • 방어 평가의 일반적인 취약점을 강조하고 더 강건한 테스트를 위한 지침을 제공한다.

제안 방법

  • ICLR, ICML, NeurIPS의 다양한 방어를 조사하고 특성화한다.
  • 최적화가 쉽고 일관된 손실 함수들을 사용하여 개선된 방어 특이적 적응 공격을 구성한다.
  • 표준 공격 도구(PGD, C&W, BPDA, EOT)를 활용하고 각 방어에 맞게 조정한다.
  • 원저 논문과 코드를 읽고 실패 모드를 반복적으로 가설화한 뒤 더 강력한 적응 공격을 구현한다.
  • 향후 평가를 위한 튜토리얼로서 공격 개발 과정을 전체적으로 문서화한다.

실험 결과

연구 질문

  • RQ1특정 메커니즘을 겨냥한 신중하게 조정된 적응 공격에 기존의 적대적 예제 방어가 버틸 수 있는가?
  • RQ2다양한 방어 전략에 대한 성공적인 적응 공격에서 반복적으로 나타나는 주제는 무엇인가?
  • RQ3단 하나의 취약한 기법에 의존하지 않도록 적응 공격 방법론을 어떻게 구성해야 하는가?
  • RQ4현 방어 평가가 공격 성공을 대리하는 데 실패하는 손실 함수나 최적화를 의존하고 있는가, 이를 어떻게 바로잡을 수 있는가?

주요 결과

  • 적응 공격이 13개의 방어 전반에 걸쳐 주장된 강건성을 상당히 감소시킬 수 있다.
  • 간단하고 잘 조정된 적응 공격이 종종 더 복잡하거나 간접적인 전략보다 더 나은 성능을 보인다.
  • 점수 기반, 결정 기반, 전이 공격이 그래디언트 마스킹으로 실패하는 경우에도 성공할 수 있다.
  • 강력한 적응 평가에서 많은 방어의 강인성 주장은 유지되지 않지만, 모든 기법이 모든 설정에서 무효하다고 주장하는 것은 아니다.
  • 공격 전략은 완전히 자동화되지 않으며 방어 특성에 따른 신중한 튜닝이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.