[논문 리뷰] Geometry-aware Instance-reweighted Adversarial Training
GAIRAT는 인스턴스 의존 가중치를 인접 데이터가 결정 경계에 얼마나 가까운지에 따라 부여하여 자연 데이터에 거의 손실 없이 강건성을 개선하며, FAT와 결합하면 강건성과 표준 정확도 모두를 향상시킬 수 있다.
In adversarial machine learning, there was a common belief that robustness and accuracy hurt each other. The belief was challenged by recent studies where we can maintain the robustness and improve the accuracy. However, the other direction, whether we can keep the accuracy while improving the robustness, is conceptually and practically more interesting, since robust accuracy should be lower than standard accuracy for any model. In this paper, we show this direction is also promising. Firstly, we find even over-parameterized deep networks may still have insufficient model capacity, because adversarial training has an overwhelming smoothing effect. Secondly, given limited model capacity, we argue adversarial data should have unequal importance: geometrically speaking, a natural data point closer to/farther from the class boundary is less/more robust, and the corresponding adversarial data point should be assigned with larger/smaller weight. Finally, to implement the idea, we propose geometry-aware instance-reweighted adversarial training, where the weights are based on how difficult it is to attack a natural data point. Experiments show that our proposal boosts the robustness of standard adversarial training; combining two directions, we improve both robustness and accuracy of standard adversarial training.
연구 동기 및 목표
- 한정된 모델 용량으로 인해, 적대적 데이터가 훈련에서 동일하게 취급되어서는 안 된다는 점을 동기화한다.
- 결정 경계에 가까운 공격 가능한 데이터를 강조하기 위한 기하학 인식의 인스턴스 재가중 목표를 제안한다.
- GAIRAT가 강건한 과적합을 완화하고 최소한의 정확도 손실로 강건성을 향상시킨다는 것을 보여준다.
- GAIRAT의 기존 AT 변형과의 호환성과 표준 벤치마크에서의 경험적 이익을 입증한다.
제안 방법
- GAIRAT를 인스턴스 가중 손실로 도입: min_theta (1/n) sum_i w(x_i,y_i) ell(f_theta(x_i~), y_i) where x_i~ 는 적대적 변형이다.
- 현재 모델을 속일 필요가 있는 가장 적은 PGD 반복 κ(x,y)로 데이터 기하를 근사한다.
- 경계 근처의 데이터를 강조하기 위해 κ에 기초한 가중 함수 w를 정의한다(예: κ의 비증가 함수).
- 학습 중 κ를 계산하고 적대적 예제를 생성하기 위해 GA-PGD를 사용한다(알고리즘 1).
- GAIRAT를 기존 AT 프레임워크(AT, FAT, TRADES) 내에서 적용하여 GAIR-AT, GAIR-FAT, GAIR-TRADES 변형을 얻는다.
실험 결과
연구 질문
- RQ1결정 경계에 대한 기하학적 거리 기반의 인스턴스별 재가중이 표준 정확도를 희생하지 않고 강건성을 향상시킬 수 있는가?
- RQ2GAIRAT가 minimax 적대적 학습에서 관찰된 강건한 과적합을 완화하는가?
- RQ3GAIRAT가 AT, FAT, TRADES와 같은 기존 적대적 학습 방법과 상호 작용하여 이를 개선하는가?
- RQ4GAIRAT의 표준 벤치마크(CIFAR-10 위드 Wide ResNet 등)에서의 경험적 이익은 무엇인가?
주요 결과
| 방어 | 자연 데이터(최고) | 차이(최고) | PGD-20(최고) | 차이(최고) | PGD+(최고) | 차이(최고) | 자연 데이터(마지막) | 차이(마지막) | PGD-20(마지막) | 차이(마지막) | PGD+(마지막) | 차이(마지막) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AT | 86.92 ±0.24 | - | 51.96 ±0.21 | - | 51.28 ±0.23 | - | 86.62 ±0.22 | - | 46.73 ±0.08 | - | 46.08 ±0.07 | - |
| FAT | 89.16 ±0.15 | +2.24 | 51.24 ±0.14 | -0.72 | 46.14 ±0.19 | -5.14 | 88.18 ±0.19 | +1.56 | 46.79 ±0.34 | +0.06 | 45.80 ±0.16 | -0.28 |
| GAIRAT | 85.75 ±0.23 | -1.17 | 57.81 ±0.54 | +5.85 | 55.61 ±0.61 | +4.33 | 85.49 ±0.25 | -1.13 | 53.76 ±0.49 | +7.03 | 50.32 ±0.48 | +4.24 |
| GAIR-FAT | 88.59 ±0.12 | +1.67 | 56.21 ±0.52 | +4.25 | 53.50 ±0.60 | +2.22 | 88.44 ±0.10 | +1.82 | 50.64 ±0.56 | +3.91 | 47.51 ±0.51 | +1.43 |
- GAIRAT는 강건한 과적합을 완화하고 자연 데이터 정확도에 큰 저하 없이 적대적 강건성을 향상시킨다.
- GAIR-FAT(GAIR-enhanced FAT)은 FAT 및 AT 기준선에 비해 강건성과 정확도 모두를 향상시킨다.
- CIFAR-10에서 Wide ResNet-32-10에 대해 GAIRAT와 GAIR-FAT는 PGD-20 및 PGD+ 평가에서 AT 및 FAT 대비 상당한 강건성 이익을 보여준다.
- GAIRAT는 자연 정확도와의 트레이드오프를 깨고 더 나은 적대적 강건성을 달성한다.
- GAIRAT는 FAT 및 TRADES와 호환되며 결합 이익을 가능하게 한다(GAIR-FAT, GAIR-TRADES).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.