QUICK REVIEW

[논문 리뷰] Certified Defenses for Adversarial Patches

Ping-yeh Chiang, Renkun Ni|arXiv (Cornell University)|2020. 03. 14.

Adversarial Robustness in Machine Learning참고 문헌 21인용 수 79

한 줄 요약

이 논문은 Interval Bound Propagation(IBP)를 이용한 공격적 패치 공격에 대한 최초의 인증된 방어를 제시하고, 기존의 패치 방어가 화이트박스 설정에서 깨질 수 있음을 보이며, 정사각형 패치에 대해 증명 가능한 강건성을 얻기 위한 학습 방법을 제안하고, 희소 공격 및 형태 전이로 확장한다.

ABSTRACT

Adversarial patch attacks are among one of the most practical threat models against real-world computer vision systems. This paper studies certified and empirical defenses against patch attacks. We begin with a set of experiments showing that most existing defenses, which work by pre-processing input images to mitigate adversarial patches, are easily broken by simple white-box adversaries. Motivated by this finding, we propose the first certified defense against patch attacks, and propose faster methods for its training. Furthermore, we experiment with different patch shapes for testing, obtaining surprisingly good robustness transfer across shapes, and present preliminary results on certified defense against sparse attacks. Our complete implementation can be found on: https://github.com/Ping-C/certifiedpatchdefense.

연구 동기 및 목표

비전 시스템에 대한 실제 물리적 세계의 패치 공격에 대한 강건성에 대한 동기를 제시.
화이트박스 공격 하에서 기존 패치 방어의 취약점을 보인다.
Interval Bound Propagation(IBP)을 기반으로 한 패치 공격에 대한 인증 방어 개발.
빠른 IBP 학습 변형과 패치 형태 간 전이성을 평가한다.

제안 방법

패치 공격 설정에 IBP를 확장하여 모든 가능한 패치 위치와 교란에 대해 강건성을 인증.
인증 조건을 정의하고 적대적 정확도에 대한 하한(인증 정확도)을 계산하는 방법을 제시.
안정적인 IBP 학습을 위한 학습 시간 트릭과 교란을 점진적으로 확대하기 위한 엡실론 스케줄을 도입.
무작위 패치(Random Patch)와 안내 패치(Guided Patch)라는 두 가지 효율적인 인증-학습 스킴을 제시하여 이미지 크기에 따른 이차 복잡도 증가를 피한다.
상위 k 픽셀 교란을 고려하도록 첫 번째 계층의 경계를 수정하여 희소 공격에 대한 IBP 방어를 확장한다.
정사각형 패치로 학습된 모델의 비정사각형 형태 및 다양한 데이터셋으로의 전달 가능성을 평가한다.

실험 결과

연구 질문

RQ1패치 기반 적대적 공격에 대해 provable 마진 내에서 신경망의 강건성을 인증할 수 있는가?
RQ2화이트박스 공격에서 기존 패치 방어의 성능은 어떤가, 인증 학습으로 이를 능가할 수 있는가?
RQ3패치 공격에 대해 발췌 가능한 인증을 얻기 위한 실용적 학습 전략은 무엇인가?
RQ4다른 패치 형태 간의 강건성 전이가 있는가, 희소 공격에서의 강건성은 어떻게 비교되는가?

주요 결과

기존의 패치 방어(DW, LGS)는 화이트박스 공격에 취약하며, 역전파(backpropagation) 또는 BPDA를 통해 방어를 우회할 수 있다.
IBP 기반의 인증 가능한 방어는 패치 공격에 대해 의미 있는 인증 정확도를 달성할 수 있으며, 예를 들어 MNIST 2x2 패치에서 91.6%의 인증 정확도, CIFAR-10 5x5 패치에서 선택된 모델로 24.9%의 인증 정확도를 달성한다.
모든 패치 인증 학습(All-patch certificate training)이 무한한 계산 자원하에서 최상의 인증 정확도를 보이지만, 무작위(Random) 또는 안내된(Guided) 패치 학습은 효율성과 스케일링 측면에서 크게 더 나은 성능을 제공한다.
정사각형 패치로 학습된 모델은 다른 모양(직사각형, 선, 다이아몬드, 평행사변형)으로의 강건성 전달이 가능하며, 대체로 인증 정확도에 미세한 손실이 발생하지만 직사각형과 같은 픽셀 수가 많은 모양의 경우 성능 저하가 두드러진다.
희소 공격(k개의 비인접 픽셀)에서 IBP 학습된 모델은 MNIST와 CIFAR-10에서 경쟁력 있는 인증 정확도를 달성하며, MNIST의 일부 희소 기준선보다 우수한 경우가 있다.
더 큰 모델은 인증 정확도를 향상시키며(CIFAR 예: 대형 모델은 5x5 패치에 대해 약 30.3%의 인증 정확도에 도달).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.