QUICK REVIEW

[논문 리뷰] PatchGuard++: Efficient Provable Attack Detection against Adversarial Patches

Chong Xiang, Prateek Mittal|arXiv (Cornell University)|2021. 04. 26.

Adversarial Robustness in Machine Learning참고 문헌 18인용 수 25

한 줄 요약

PatchGuard++는 특징 공간 영역을 마스킹하고 예측 합의(confidence) 여부를 확인하여 대적patch 공격을 탐지하며, 고해상도 이미지에서 클린 정확도와 입증 가능한 강건 정확도를 크게 달성한다.

ABSTRACT

An adversarial patch can arbitrarily manipulate image pixels within a restricted region to induce model misclassification. The threat of this localized attack has gained significant attention because the adversary can mount a physically-realizable attack by attaching patches to the victim object. Recent provably robust defenses generally follow the PatchGuard framework by using CNNs with small receptive fields and secure feature aggregation for robust model predictions. In this paper, we extend PatchGuard to PatchGuard++ for provably detecting the adversarial patch attack to boost both provable robust accuracy and clean accuracy. In PatchGuard++, we first use a CNN with small receptive fields for feature extraction so that the number of features corrupted by the adversarial patch is bounded. Next, we apply masks in the feature space and evaluate predictions on all possible masked feature maps. Finally, we extract a pattern from all masked predictions to catch the adversarial patch attack. We evaluate PatchGuard++ on ImageNette (a 10-class subset of ImageNet), ImageNet, and CIFAR-10 and demonstrate that PatchGuard++ significantly improves the provable robustness and clean performance.

연구 동기 및 목표

물리적으로 구현될 수 있는 국지적 적대 패치에 대한 강건한 방어를 촉진한다.
클린 정확도를 보존하면서 패치 공격을 입증적으로 식별하는 탐지 프레임워크를 제안한다.
작은 수용 영역(Receptive Field) 특징 추출기를 활용하여 손상된 특징을 결합하고 특징 공간 마스킹으로 불일치를 플래그한다.
화이트박스 적응 공격 하에서 공격 탐지에 대한 입증 가능한 보장을 제공한다.

제안 방법

패치에 의해 손상된 특징 수를 제한하기 위해 작은 수용 영역을 갖는 CNN을 사용한다.
가능한 모든 특징 공간 위치에 마스크를 적용하고 각 마스크된 특징 맵에 대한 예측을 얻는다.
패치가 존재할 때 마스크된 예측 간의 불일치를 탐지하여 공격을 식별한다.
모든 비 abstain 마스크된 예측이 올바르면 원래 예측을 반환하고, 그렇지 않으면 공격 경보를 발령한다.
모든 비 abstain 마스크된 예측이 올바를 경우 이미지가 패치에 대해 입증적으로 강건하다고 분석적으로 보장한다.

실험 결과

연구 질문

RQ1화이트박스 조건에서 국지적 적대 패치를 안정적으로 탐지하는 마스크 기반의 특징 공간 접근법이 신뢰할 수 있는가?
RQ2PatchGuard++가 이전 방어 방법에 비해 클린 정확도와 입증 가능한 강건성 모두를 개선하는가?
RQ3탐지 임계값 설정과 강건성/정확도 사이의 trade-off는 무엇인가?
RQ4ImageNet 및 ImageNette와 같은 고해상도 데이터셋에 접근 방식이 얼마나 잘 스케일링되는가?

주요 결과

데이터셋	ImageNette 클린	ImageNette 강건	ImageNet 클린	ImageNet 강건	CIFAR-10 클린	CIFAR-10 강건
PatchGuard++ (τ=0.8)	96.9	87.7	62.9	28.0	84.8	68.9
PatchGuard++ (τ=0.7)	96.6	90.2	62.7	32.0	82.5	71.7
PatchGuard++ (τ=0.6)	96.1	91.8	62.1	35.5	80.2	74.3
PatchGuard++ (τ=0.5)	95.3	92.9	60.9	39.0	78.0	76.3
MR (McCoyd et al., 2020)	computationally infeasible	92.4	43.8	90.6	62.1	78.8	77.6

PatchGuard++는 ImageNette에서 τ=0.6일 때 96.1%의 클린 정확도와 91.8%의 입증 가능한 강건 정확도로 최첨단 성능을 달성한다.
ImageNet에서 PatchGuard++는 τ=0.5에서 클린 정확도(약 6% 포인트 개선)와 입증 가능한 강건 정확도(약 13% 포인트 개선) 모두에서 이전 방어 방법을 능가한다.
CIFAR-10의 경우 PatchGuard++는 Minority Report(MR) 대비 훨씬 낮은 계산량으로 경쟁력 있는 입증 가능한 강건성을 보여준다.
신뢰도 임계값 τ를 낮추면 클린 정확도보다 입증 가능한 강건성이 더 빠르게 증가하는 경향이 있어 우호적인 트레이드오프를 보인다.
이전의 입증 가능한 방어 방법들과 비교하여 PatchGuard++는 고해상도 이미지에 대해 더 높은 정확도와 확장 가능한 공격 탐지를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.