QUICK REVIEW

[논문 리뷰] Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks

Francesco Croce, Matthias Hein|arXiv (Cornell University)|2020. 03. 03.

Adversarial Robustness in Machine Learning참고 문헌 51인용 수 434

한 줄 요약

논문은 하이퍼파라미터 튜닝 없이도 adversarial robust을 신뢰성 있게 평가하는 파라미터-프리 diverse 공격 앙상블인 AutoAttack을 도입하고, 50+ models에서 약한 방어를 식별한다는 것을 보여준다.

ABSTRACT

The field of defense strategies against adversarial attacks has significantly grown over the last years, but progress is hampered as the evaluation of adversarial defenses is often insufficient and thus gives a wrong impression of robustness. Many promising defenses could be broken later on, making it difficult to identify the state-of-the-art. Frequent pitfalls in the evaluation are improper tuning of hyperparameters of the attacks, gradient obfuscation or masking. In this paper we first propose two extensions of the PGD-attack overcoming failures due to suboptimal step size and problems of the objective function. We then combine our novel attacks with two complementary existing ones to form a parameter-free, computationally affordable and user-independent ensemble of attacks to test adversarial robustness. We apply our ensemble to over 50 models from papers published at recent top machine learning and computer vision venues. In all except one of the cases we achieve lower robust test accuracy than reported in these papers, often by more than $10\%$, identifying several broken defenses.

연구 동기 및 목표

적대적 방어의 평가가 하이퍼파라미터 튜닝과 공격의 약점으로 인해 신뢰할 수 없게 되는 문제를 동기화하고 수정한다.
상호 보완적인 공격을 결합한 견고하고 파라미터-프리인 평가 프로토콜을 제안한다.
앙상블이 상위 학술지에서 보고된 많은 방어보다 더 낮은 강건 정확도를 산출함으로써 깨진 방어를 강조한다.
데이터셋(MNIST, CIFAR-10/100, ImageNet)과 위협 모형(l_infty, l_2) 전반에 걸친 확장성과 일반성을 시연한다.

제안 방법

스텝 크기 선택의 필요성을 제거하고 예산 인식적 적응을 제공하는 Auto-PGD(APGD)로 PGD를 확장한다.
그라디언트 마스킹 효과를 완화하기 위해 시프트 및 재스케일링 불변인 손실 함수 변형(DLR 손실)을 도입한다.
APGD CE, APGD DLR에 화이트박스 FAB와 블랙박스 Square Attack을 결합하여 파라미터-프리 앙상블인 AutoAttack를 구성한다.
모델과 데이터셋 전반에 걸쳐 파라미터-프리 작동을 보장하기 위해 고정된 반복 횟수와 재시도 예산을 사용한다.
공격 변형으로 APGD CE, APGD T DLR(타깃), FAB T, Square Attack를 포함하며 각 실행당 100회의 반복을 수행한다.
AutoAttack은 구성 공격들 중 최악의 경우의 강건 정확도를 선택하여 강건성을 추정한다.

실험 결과

연구 질문

RQ1다양한 모델과 데이터셋에서 파라미터-프리 앙상블의 공격이 강건성을 신뢰성 있게 추정할 수 있는가?
RQ2표준 PGD보다 APGD 및 기울기 불변 손실(DLR)이 공격 효과와 강건성 추정에 개선을 가져오는가?
RQ3APGD CE, APGD DLR, FAB, Square Attack를 결합하는 것이 강건하다고 보고된 방어의 약점을 드러내기에 충분한가?
RQ4MNIST, CIFAR-10/100, ImageNet에서 l_infty 및 l_2 위협 모형에서 AutoAttack의 성능은 어떤가?
RQ5앙상블이 깨진 방어를 식별하고 검토 논문에서의 강건성 과대평가를 줄이는가?

주요 결과

AutoAttack은 문헌에서 보고된 많은 방어에 비해 강건 정확도를 낮추며, 대부분의 경우 10% 포인트 이상 감소시킨다.
APGD는 CE, CW, DLR 손실에서 모듈형 모델들에 대해 표준 PGD(모멘텀 포함)보다 우수하다.
DLR 손실은 교차 엔트로피보다 더 안정적이며 흔히 CW 손실과 비슷하거나 더 낫고 실패 사례가 적다.
APGD DLR의 표적 버전과 FAB의 표적 버전은 일반적으로 CIFAR-10/ImageNet 벤치마크에서 비표적 버전에 비해 더 강한 공격과 더 낮은 강건성을 나타낸다.
50개 이상의 분류기에서 35개 방어에 걸쳐 AutoAttack은 제한된 예산과 파라미터 튜닝 없이도 신뢰할 수 있는 강건성 추정치를 제공한다.
AutoAttack은 여러 깨진 방어를 식별하고 새로운 방어에 대한 실용적인 최소 테스트를 제시한다。

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.