QUICK REVIEW

[논문 리뷰] Testing Robustness Against Unforeseen Adversaries

Kaufmann, Max, Daniel Kang|arXiv (Cornell University)|2019. 08. 21.

Adversarial Robustness in Machine Learning참고 문헌 56인용 수 82

한 줄 요약

본 논문은 ImageNet-UA라는 벤치마크와 UA2 지표를 제시하여 19개의 비-Lp 공격자에 대한 예측되지 않은 강건성(unforeseen robustness)을 평가하고, 보이지 않는 공격이 기존의 Lp 강건성으로 포착되지 않는 취약점을 드러낸다는 사실을 보여준다.

ABSTRACT

Adversarial robustness research primarily focuses on L_p perturbations, and most defenses are developed with identical training-time and test-time adversaries. However, in real-world applications developers are unlikely to have access to the full range of attacks or corruptions their system will face. Furthermore, worst-case inputs are likely to be diverse and need not be constrained to the L_p ball. To narrow in on this discrepancy between research and reality we introduce ImageNet-UA, a framework for evaluating model robustness against a range of unforeseen adversaries, including eighteen new non-L_p attacks. To perform well on ImageNet-UA, defenses must overcome a generalization gap and be robust to a diverse attacks not encountered during training. In extensive experiments, we find that existing robustness measures do not capture unforeseen robustness, that standard robustness techniques are beat by alternative training strategies, and that novel methods can improve unforeseen robustness. We present ImageNet-UA as a useful tool for the community for improving the worst-case behavior of machine learning systems.

연구 동기 및 목표

Lp-경계 공격을 넘어서는 다양하고 보이지 않는(unseen) 적대자 세트에 대한 모델 강건성 평가를 촉진한다.
ImageNet에서의 예측되지 않은 강건성을 위한 표준 벤치마크로 ImageNet-UA를 제안하고(또한 CIFAR-10-UA를 더 작은 유사 벤치마크로 제시한다).
다양한 공격 유형에 걸친 성능을 정량화하기 위한 Unforeseen Adversarial Accuracy (UA2) 지표를 정의한다.
광범위한 강건성 테스트를 가능케 하는 비-Lp 미분가능 공격들의 저장소를 제공하여 폭넓은 강건성 테스트를 가능하게 한다.
기존 방어가 예측되지 않은 공격 하에서 어떻게 동작하는지 경험적으로 분석하고 유망한 학습/방어 전략을 식별한다.

제안 방법

입력에 대해 미분가능한 함수 A(x,δ)로 수정하는 공격 A를 포함하는 일반적인 적대적 프레임워크를 정의한다(잠재적 섭동 δ를 가진다).
18개의 새로운 비-Lp 공격(그리고 비신규로 간주되는 Elastic 포함)을 개발하되, 각 공격은 미분가능하고 Lp 제약 ε로 제한되어 데이터셋에 구애받지 않는 플러그앤플레이 사용을 가능하게 한다.
각 공격의 섭동 집합 Sx^A,ε 내에서 내부 최소화를 해결하기 위해 투영 경사 하강법(Projected Gradient Descent, PGD)을 사용한다.
표준 데이터셋에 공격을 적용하고 분류를 평가함으로써 ImageNet-UA와 CIFAR-10-UA 벤치마크를 구성한다.
수정된 UA2를 도입하는데, 이는 유한한 적대자 모집집단 A에 대한 수준 ε_A에서 공격 A 하의 정확도의 평균이다.
UA2를 기존 견고성 지표와 비교하고 예측되지 않은 강건성을 향상시키는 학습 전략을 탐구하는 분석을 제공한다.

실험 결과

연구 질문

RQ1보지 않은, 비-Lp 공격이 모델 정확도에 미치는 영향은 전통적인 Lp 공격과 비교하여 어떠한가?
RQ2예측되지 않은 강건성은 기존 지표들에 의해 포착되는가, 아니면 UA2가 뚜렷한 약점을 드러내는가?
RQ3Lp-targeted 방어를 넘어 예측되지 않은 공격에 대한 강건성을 향상시키는 학습 또는 방어 전략은 무엇인가?
RQ4표준 컴퓨터 비전 벤치마크의 발전이 예측되지 않은 강건성의 향상과 어느 정도 상관관계가 있는가?
RQ5증강과 Lp 학습 또는 다중 공격 전략의 결합이 다양한 모델에서 예측되지 않은 강건성을 향상시키는가?

주요 결과

예측되지 않은 강건성(UA2)은 전통적인 Lp 강건성과 구별되며 기존 지표로는 완전히 예측할 수 없다.
여러 모델에서 L2 기반의 적대적 학습은 L∞ 학습보다 예측되지 않은 강건성(UA2)에 대한 강력한 향상을 제공한다.
이미지 증강(PixMix 등)을 L∞ 학습과 결합하면 두 기술 중 어느 하나를 단독으로 사용할 때보다 UA2를 크게 향상시킨다.
다중 공격에 대한 강건 학습 및 지각 기반 방어(PAT)도 UA2를 향상시키며 때로는 순수한 Lp 기반 기준선보다 우수하다.
현대 CV 모델과 학습의 진전(규모, 사전학습, 증강)은 UA2의 향상과 상관관계가 있어 CV의 발전이 예측되지 않은 강건성의 부분적으로를 따라간다는 시사점을 제공한다.
최적화된 비-Lp 공격은 L∞ 강건성이 높은 모델도 예측되지 않은 적대자 하에서 여전히 취약할 수 있음을 보여주며, 다양화된 평가의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.