[논문 리뷰] Are Labels Required for Improving Adversarial Robustness?
본 논문은 라벨이 없는 데이터가 적은 라벨로도 적대적 학습에서 라벨 데이터의 상당한 강건성 이득을 대체할 수 있음을 보여주고, Unsupervised Adversarial Training(UAT)을 도입하며, 비정제 데이터 사용으로도 거의 감독 학습에 근접한 성능을 보이고, 라벨이 적은 상황에서의 개선을 제시한다.
Recent work has uncovered the interesting (and somewhat surprising) finding that training models to be invariant to adversarial perturbations requires substantially larger datasets than those required for standard classification. This result is a key hurdle in the deployment of robust machine learning models in many real world applications where labeled data is expensive. Our main insight is that unlabeled data can be a competitive alternative to labeled data for training adversarially robust models. Theoretically, we show that in a simple statistical setting, the sample complexity for learning an adversarially robust model from unlabeled data matches the fully supervised case up to constant factors. On standard datasets like CIFAR-10, a simple Unsupervised Adversarial Training (UAT) approach using unlabeled data improves robust accuracy by 21.7% over using 4K supervised examples alone, and captures over 95% of the improvement from the same number of labeled examples. Finally, we report an improvement of 4% over the previous state-of-the-art on CIFAR-10 against the strongest known attack by using additional unlabeled data from the uncurated 80 Million Tiny Images dataset. This demonstrates that our finding extends as well to the more realistic case where unlabeled data is also uncurated, therefore opening a new avenue for improving adversarial training.
연구 동기 및 목표
- 라벨 데이터 의존성을 줄이고 적대적 강건성을 개선하기 위해 라벨 없는 데이터의 사용을 동기화한다.
- 라벨이 없는 데이터를 활용한 강건한 분류기 학습을 위한 Unsupervised Adversarial Training(UAT) 전략을 도입한다.
- 가우시안 모델에서 라벨이 있을 때와 없을 때의 샘플 복잡도 비교를 이론적으로 제시한다.
- 강한 적대적 공격과 비정제 데이터에서 CIFAR-10과 SVHN에 대해 UAT를 실험적으로 평가한다.
- 대규모의 라벨 없는 데이터를 활용한 최첨단 강건성으로의 도약을 모색한다.
제안 방법
- 적대적 위험과 자연적 위험, 그리고 내부 최대화(PGD 기반) 적대자에 의한 대리적 적대 위험을 정의한다.
- UAT-OT(Online Targets를 사용하는 비지도 적대 학습)와 UAT-FT(Fixed Targets를 사용하는 비지도 적대 학습), 그리고 결합 변형인 UAT++를 제안한다.
- 가중치 하이퍼파라미터 λ로 제어되는 감독 손실과 비지도 스무스니스 손실을 결합한다.
- 고정된 강건 정확도에 대해 비지도 데이터가 감독 데이터의 샘플 복잡도와 대응할 수 있음을 보이는 가우시안 모델 이론 분석을 제공한다.
- ε=8/255 및 ε=0.01 조건에서 CIFAR-10과 SVHN에서 평가하며, 비정제 비지도 데이터로 80 Million Tiny Images를 포함한 실험을 수행한다.
실험 결과
연구 질문
- RQ1주어진 데이터 예산에서 비지도 데이터가 라벨 데이터에 비해 유사한 적대적 강건성을 달성할 수 있는가?
- RQ2UAT 변형(UAT-OT, UAT-FT, 및 ++ )은 CIFAR-10과 SVHN에서 표준 및 강한 적대적 공격 하에서 어떻게 성능을 나타내는가?
- RQ3비정제 라벨 없는 데이터(예: 80 Million Tiny Images)가 CIFAR-10의 최첨단 강건성에 기여하는가?
- RQ4라벨 데이터와 라벨 없는 데이터 간의 분포 변화에 대한 UAT의 강건성은 어떠한가?
- RQ5의사 라벨링 과정에서의 라벨 노이즈에 대해 UAT의 강건성은 얼마나 robust한가?
주요 결과
- 라벨 없는 데이터는 적대적 강건성 측면에서 라벨 데이터와 경쟁력이 있으며, UAT 변형들은 동일한 라벨 데이터를 사용한 베이스라인에 비해 강건성을 크게 향상시킨다.
- UAT-FT와 UAT++가 대개 UAT-OT보다 우수한 성능을 보이며, 특히 더 큰 비지도 데이터 세트에서 그렇고, UAT++는 CIFAR-10과 SVHN에서 FGSM 위협 모델 하에 감독 오라클에 거의 근접한다.
- 32K 라벨 없는 샘플에서 CIFAR-10의 경우 UAT++는 54.1%의 강건 정확도, 전부 감독일 때 55.5%와 비교해 감독 오라클의 1.4%포인트 차로 근접하다.
- 60K 라벨 없는 샘플로 SVHN에서 UAT++가 84.4%의 강건 정확도에 도달하여 감독 오라클보다 1.8%포인트 차로 근접한다.
- 비정제 데이터(80m Tiny Images)로 더 큰 모델을 사용하면 CIFAR-10에서 강한 공격에 대한 최첨단 강건성을 달성하는 예가 나타나며, 예를 들어 WRN-106이 MultiTargeted 공격에서 56.30%를 달성한다.
- 200K 라벨 없는 80m 데이터 및 WRN-34/106를 사용한 UAT++은 FGSM 20 및 MultiTargeted 공격에서 TRADES 및 기타 베이스라인 대비 상당한 향상을 보인다.
- 이 접근 방식은 라벨 노이즈에 대해서도 강건성을 입증하며, 가짜 라벨이 노이즈이거나 부분적으로 손상되더라도 상당한 이득을 얻는 것으로 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.