QUICK REVIEW

[논문 리뷰] Instance adaptive adversarial training: Improved accuracy tradeoffs in neural nets

Yogesh Balaji, Tom Goldstein|arXiv (Cornell University)|2019. 10. 17.

Adversarial Robustness in Machine Learning참고 문헌 21인용 수 66

한 줄 요약

본 논문은 인스턴스 적응형 적대적 학습(IAAT)을 제안합니다. 이 방법은 학습 중 샘플별 섭동 반경을 할당하여 깨끗한 정확도를 향상시키되 견고성은 비슷하게 유지하고, CIFAR-10/100 및 ImageNet에서 이를 시연합니다.

ABSTRACT

Adversarial training is by far the most successful strategy for improving robustness of neural networks to adversarial attacks. Despite its success as a defense mechanism, adversarial training fails to generalize well to unperturbed test set. We hypothesize that this poor generalization is a consequence of adversarial training with uniform perturbation radius around every training sample. Samples close to decision boundary can be morphed into a different class under a small perturbation budget, and enforcing large margins around these samples produce poor decision boundaries that generalize poorly. Motivated by this hypothesis, we propose instance adaptive adversarial training -- a technique that enforces sample-specific perturbation margins around every training sample. We show that using our approach, test accuracy on unperturbed samples improve with a marginal drop in robustness. Extensive experiments on CIFAR-10, CIFAR-100 and Imagenet datasets demonstrate the effectiveness of our proposed approach.

연구 동기 및 목표

표준 적대적 학습에서의 견고성-정확도 트레이드오프와 균일한 섭동 반경으로 인한 한계에 대해 동기를 부여합니다.
IAAT를 제안하여 샘플별 섭동 반경을 할당함으로써 견고성을 유지하면서 깨끗한 정확도를 더 잘 보존합니다.
IAAT가 데이터셋(CIFAR-10/100, ImageNet) 전반에서 자연스러운 테스트 정확도를 개선하고 견고성 손실은 미미하게 나타난다는 것을 경험적으로 보여줍니다.
해석 가능성에 대한 통찰을 제공합니다: 작은 반경은 경계 모호성과 근처의 충돌 샘플과 상관되고, 큰 반경은 명확한 클래스를 나타냅니다.
이전에 제안된 적응 마진 연구와 IAAT를 비교하고 다양한 테스트 섭동에 대한 견고성을 분석합니다.

제안 방법

샘플별 섭동 예산을 가지는 min-max 목적함수로 IAAT를 형식화합니다: min_theta max_{||delta_i||_infty <= epsilon_i} Loss( x_i + delta_i, y_i ).
샘플별 epsilon으로 전환하기 전의 균일한 epsilon를 사용하는 워밍업 기간으로 초기화합니다.
각 샘플에 대한 적대적 샘플을 만든 후 PGD가 성공하는지 실패하는지에 따라 epsilon_i를 조정합니다 (epsilon_i-- 또는 epsilon_i++), 이를 에폭에 걸쳐 메모리 메커니즘으로 스무딩합니다.
알고리즘 1은 적대적 예제 생성과 파라미터 업데이트를 번갈아 수행하는 학습 루프를 제공합니다.
알고리즘 2는 이전 값 주위의 이산 탐색을 통해 샘플별 epsilon를 업데이트하고 안정화합니다.
이 방법은 클래스 다발이 잘 분리되는 영역에서 더 큰 반경을 선택하고 의사결정 경계 근처에서는 더 작은 반경을 선택하는 것을 강조하여 더 나은 트레이드오프를 제공합니다.
실험은 CIFAR-10/100에서 ResNet 및 WideResNet 아키텍처와 ImageNet에서 ResNet 변형을 포함하여 자연 정확도, 화이트박스 및 전이 견고성, 손상 견고성을 평가합니다.

실험 결과

연구 질문

RQ1표준 균일 반경 적대적 학습과 비교하여 고정된 견고성 수준에서 샘플별 적대적 반경을 강제하는 것이 깨끗한 정확도를 향상시키나요?
RQ2IAAT가 표준 적대적 학습에서 관찰되는 전통적 견고성-정확도 파레토 프런티어를 깨뜨릴 수 있나요?
RQ3학습된 샘플별 반경은 데이터 모호성과 클래스 경계에 대해 얼마나 해석 가능한가요?
RQ4IAAT의 이득은 데이터셋(CIFAR-10/100, ImageNet)과 아키텍처 전반에 일반화되나요?
RQ5워밍업 및 샘플별 반경의 동적이 보이지 않는 손상에 대한 견고성에 미치는 영향은 무엇인가요?

주요 결과

IAAT는 CIFAR-10/100에서 표준 적대적 학습과 비슷한 견고성으로 자연 테스트 정확도를 향상시킵니다(예: 비슷하거나 약간 감소된 적대적 견고성을 가진 눈에 띄는 깨끗한 정확도 향상).
IAAT는 보이지 않는 이미지 손상에 대한 견고성을 제공하여 일반화가 개선됨을 시사합니다.
ImageNet에서는 IAAT가 ResNet 모델 전반에 걸쳐 자연 정확도를 크게 높이며(적대적 학습 대비 +10% 이상), 낮은 섭동 강도에서 경쟁력 있는 적대적 견고성을 유지하고, 높은 epsilon에서 일부 트레이드오프가 있습니다.
샘플별 epsilon은 인간의 모호성 개념과 상관관계가 있습니다: 경계 근처 샘플은 더 작은 epsilon을 받고, 모호하지 않은 샘플은 더 큰 epsilon을 받습니다.
워밍업은 자연 정확도에서 약간의 하락으로 견고성을 향상시키고, 워밍업 없이 IAAT도 더 나은 트레이드오프를 나타내며, 워밍업은 일반적으로 CIFAR-100에서 견고성을 더 돕습니다.
IAAT는 더 강한 공격에서도 Mixup-적대적 학습을 능가할 수 있으며, 자연 정확도를 유지하면서 견고성을 보존합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.