Skip to main content
QUICK REVIEW

[논문 리뷰] Breaking certified defenses: Semantic adversarial examples with spoofed robustness certificates

Amin Ghiasi, Ali Shafahi|arXiv (Cornell University)|2020. 03. 19.
Adversarial Robustness in Machine Learning참고 문헌 30인용 수 23
한 줄 요약

이 논문은 인식 가능한 정도로 자연스럽고 큰 노름을 가진 변형을 생성함으로써 인증된 강건성 분류기들을 속이는 새로운 적대적 예제 방법인 Shadow Attack를 소개한다. 분류기의 레이블과 그 강건성 인증 생성기 양쪽을 이용하여, 오분류를 일으키면서도 동시에 '위조된' 고신뢰도 인증을 생성함으로써, 실제 상황에서 인증된 강건성이 정확성이나 보안성을 보장하지는 않음을 보여준다.

ABSTRACT

To deflect adversarial attacks, a range of "certified" classifiers have been proposed. In addition to labeling an image, certified classifiers produce (when possible) a certificate guaranteeing that the input image is not an $\\ell_p$-bounded adversarial example. We present a new attack that exploits not only the labelling function of a classifier, but also the certificate generator. The proposed method applies large perturbations that place images far from a class boundary while maintaining the imperceptibility property of adversarial examples. The proposed "Shadow Attack" causes certifiably robust networks to mislabel an image and simultaneously produce a "spoofed" certificate of robustness.

연구 동기 및 목표

  • 인증된 강건성 인증을 보안 보장으로 삼는 인증된 강건성 분류기의 심각한 취약점을 드러내기 위해.
  • 오분류를 일으키면서도 높은 신뢰도를 가진 잘못된 인증을 통해 위조된 안전감을 유도하는 공격을 개발하기 위해.
  • 특히 의미적 변형이 가해진 상황에서 인증된 강건성이 신뢰할 만한 모델 행동을 의미한다는 가정을 도전하기 위해.
  • 크고 눈에 띄지 않는 변형이 최신 인증된 강건성 모델의 인증 영역을 우회하면서도 시각적으로 타당성을 유지할 수 있음을 보여주기 위해.

제안 방법

  • Shadow Attack는 시각적으로 자연스럽고 눈에 띄지 않는 큰 노름을 가진 의미적인 변형을 사용하여 적대적 예제를 생성한다.
  • 분류기의 예측과 인증 생성기 양쪽을 대상으로 하며, 교차 엔트로피, 총 변동성, 그리고 강건성 경계 정규화 항을 포함하는 손실 함수를 사용한다.
  • IBP 기반 인증 방어 기법(예: CROWN-IBP)의 학습 목표를 활용하여, 오분류되지만 여전히 큰 인증 반경 내에 속하는 이미지를 제작한다.
  • 감지 가능성을 최소화하면서 변형의 노름을 최대화하기 위해 탐욕적인 HSV 공간 변환을 사용하여 인증 영역을 벗어나게 한다.
  • 백색 상자 설정에서 기울기 기반 최적화를 사용하며, 오분류와 강력한 인증 생성을 동시에 강제하는 맞춤형 손실 함수를 적용한다.
  • 실험은 효율성을 위해 1채널 공격에 초점을 맞춰 CIFAR-10에서 ε = 2/255 및 ε = 8/255로 훈련된 CROWN-IBP 모델을 대상으로 수행된다.

실험 결과

연구 질문

  • RQ1오분류를 일으키면서도 위조된 고신뢰도 강건성 인증을 동시에 생성할 수 있는 적대적 예제를 만들 수 있는가?
  • RQ2큰 노름을 가진 의미적인 자연스러운 변형이 최신 인증된 강건성 모델의 인증 영역을 우회할 수 있는가?
  • RQ3강력한 인증이 실제로 모델의 강건성이나 정확성에 신뢰할 만한 지표인가?
  • RQ4인증 생성 과정 자체가 적대적 입력에 대해 '위조된' 인증을 생성하도록 악용될 수 있는가?
  • RQ5인증을 인위적으로 강화했을 때, 적대적 예제의 강건성 오차는 자연 이미지보다 어떻게 비교되는가?

주요 결과

  • ε = 2/255일 경우, Shadow Attack는 45.90%에서 65.74%의 비율로 인증된 적대적 예제를 생성하며, 이는 위조된 인증이 자주 생성됨을 시사한다.
  • ε = 8/255일 경우, 공격의 인증 비율(63.43%에서 71.16%)이 모델의 자연적 강건성 오차(71.28%에서 73.66%)보다 높으며, 이는 적대적 예제가 청소년 이미지보다 더 자주 인증됨을 의미한다.
  • 공격는 인증 반경을 초월하는 더 큰 ℓ∞-노름 변형을 생성하지만, 시각적으로 자연스럽고 눈에 띄지 않게 유지한다.
  • ε = 8/255 설정에서 자연 이미지의 강건성 오차는 공격 이미지보다 높으며, 이는 공격가 인증 생성기를 성공적으로 조작했다는 것을 보여준다.
  • 공격의 성공 원인은 인증 생성기가 변형된 이미지가 강건하다고 잘못 믿게 만들기 때문이며, 이는 모델이 오분류를 하지만 인증은 존재하기 때문이다.
  • 결과적으로, 인증된 강건성이 정확성을 의미하지는 않음을 보여주며, 오분류된 입력에 대해 위조된 인증을 생성할 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.