QUICK REVIEW

[논문 리뷰] Breaking certified defenses: Semantic adversarial examples with spoofed robustness certificates

Amin Ghiasi, Ali Shafahi|arXiv (Cornell University)|2020. 03. 19.

Adversarial Robustness in Machine Learning참고 문헌 30인용 수 23

한 줄 요약

이 논문은 인식 가능한 정도로 자연스럽고 큰 노름을 가진 변형을 생성함으로써 인증된 강건성 분류기들을 속이는 새로운 적대적 예제 방법인 Shadow Attack를 소개한다. 분류기의 레이블과 그 강건성 인증 생성기 양쪽을 이용하여, 오분류를 일으키면서도 동시에 '위조된' 고신뢰도 인증을 생성함으로써, 실제 상황에서 인증된 강건성이 정확성이나 보안성을 보장하지는 않음을 보여준다.

ABSTRACT

To deflect adversarial attacks, a range of "certified" classifiers have been proposed. In addition to labeling an image, certified classifiers produce (when possible) a certificate guaranteeing that the input image is not an $\\ell_p$-bounded adversarial example. We present a new attack that exploits not only the labelling function of a classifier, but also the certificate generator. The proposed method applies large perturbations that place images far from a class boundary while maintaining the imperceptibility property of adversarial examples. The proposed "Shadow Attack" causes certifiably robust networks to mislabel an image and simultaneously produce a "spoofed" certificate of robustness.

연구 동기 및 목표

인증된 강건성 인증을 보안 보장으로 삼는 인증된 강건성 분류기의 심각한 취약점을 드러내기 위해.
오분류를 일으키면서도 높은 신뢰도를 가진 잘못된 인증을 통해 위조된 안전감을 유도하는 공격을 개발하기 위해.
특히 의미적 변형이 가해진 상황에서 인증된 강건성이 신뢰할 만한 모델 행동을 의미한다는 가정을 도전하기 위해.
크고 눈에 띄지 않는 변형이 최신 인증된 강건성 모델의 인증 영역을 우회하면서도 시각적으로 타당성을 유지할 수 있음을 보여주기 위해.

제안 방법

Shadow Attack는 시각적으로 자연스럽고 눈에 띄지 않는 큰 노름을 가진 의미적인 변형을 사용하여 적대적 예제를 생성한다.
분류기의 예측과 인증 생성기 양쪽을 대상으로 하며, 교차 엔트로피, 총 변동성, 그리고 강건성 경계 정규화 항을 포함하는 손실 함수를 사용한다.
IBP 기반 인증 방어 기법(예: CROWN-IBP)의 학습 목표를 활용하여, 오분류되지만 여전히 큰 인증 반경 내에 속하는 이미지를 제작한다.
감지 가능성을 최소화하면서 변형의 노름을 최대화하기 위해 탐욕적인 HSV 공간 변환을 사용하여 인증 영역을 벗어나게 한다.
백색 상자 설정에서 기울기 기반 최적화를 사용하며, 오분류와 강력한 인증 생성을 동시에 강제하는 맞춤형 손실 함수를 적용한다.
실험은 효율성을 위해 1채널 공격에 초점을 맞춰 CIFAR-10에서 ε = 2/255 및 ε = 8/255로 훈련된 CROWN-IBP 모델을 대상으로 수행된다.

실험 결과

연구 질문

RQ1오분류를 일으키면서도 위조된 고신뢰도 강건성 인증을 동시에 생성할 수 있는 적대적 예제를 만들 수 있는가?
RQ2큰 노름을 가진 의미적인 자연스러운 변형이 최신 인증된 강건성 모델의 인증 영역을 우회할 수 있는가?
RQ3강력한 인증이 실제로 모델의 강건성이나 정확성에 신뢰할 만한 지표인가?
RQ4인증 생성 과정 자체가 적대적 입력에 대해 '위조된' 인증을 생성하도록 악용될 수 있는가?
RQ5인증을 인위적으로 강화했을 때, 적대적 예제의 강건성 오차는 자연 이미지보다 어떻게 비교되는가?

주요 결과

ε = 2/255일 경우, Shadow Attack는 45.90%에서 65.74%의 비율로 인증된 적대적 예제를 생성하며, 이는 위조된 인증이 자주 생성됨을 시사한다.
ε = 8/255일 경우, 공격의 인증 비율(63.43%에서 71.16%)이 모델의 자연적 강건성 오차(71.28%에서 73.66%)보다 높으며, 이는 적대적 예제가 청소년 이미지보다 더 자주 인증됨을 의미한다.
공격는 인증 반경을 초월하는 더 큰 ℓ∞-노름 변형을 생성하지만, 시각적으로 자연스럽고 눈에 띄지 않게 유지한다.
ε = 8/255 설정에서 자연 이미지의 강건성 오차는 공격 이미지보다 높으며, 이는 공격가 인증 생성기를 성공적으로 조작했다는 것을 보여준다.
공격의 성공 원인은 인증 생성기가 변형된 이미지가 강건하다고 잘못 믿게 만들기 때문이며, 이는 모델이 오분류를 하지만 인증은 존재하기 때문이다.
결과적으로, 인증된 강건성이 정확성을 의미하지는 않음을 보여주며, 오분류된 입력에 대해 위조된 인증을 생성할 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.