QUICK REVIEW

[논문 리뷰] To be Robust or to be Fair: Towards Fairness in Adversarial Training

Han Xu, Liu, Xiaorui|arXiv (Cornell University)|2020. 10. 13.

Adversarial Robustness in Machine Learning참고 문헌 33인용 수 23

한 줄 요약

이 논문은 적대적 훈련에서 심각한 클래스 간 불공평성 문제를 규명한다: 균형 잡힌 데이터셋에서도 표준 정확도와 강건성에서 심각한 클래스 간 격차가 발생한다. 이를 해결하기 위해 저자는 동적 디 biases 프레임워크인 Fair Robust Learning (FRL)을 제안하며, 경계 오차를 재가중하고 노이즈 간격을 재매핑하여 가장 열악한 클래스의 강건성을 크게 향상시키지만 전체 성능은 유지한다.

ABSTRACT

Adversarial training algorithms have been proved to be reliable to improve machine learning models' robustness against adversarial examples. However, we find that adversarial training algorithms tend to introduce severe disparity of accuracy and robustness between different groups of data. For instance, a PGD adversarially trained ResNet18 model on CIFAR-10 has 93% clean accuracy and 67% PGD l-infty-8 robust accuracy on the class "automobile" but only 65% and 17% on the class "cat". This phenomenon happens in balanced datasets and does not exist in naturally trained models when only using clean samples. In this work, we empirically and theoretically show that this phenomenon can happen under general adversarial training algorithms which minimize DNN models' robust errors. Motivated by these findings, we propose a Fair-Robust-Learning (FRL) framework to mitigate this unfairness problem when doing adversarial defenses. Experimental results validate the effectiveness of FRL.

연구 동기 및 목표

균형 잡힌 데이터셋에서도 적대적 훈련이 표준 정확도와 강건성에서 심각한 클래스 간 격차를 유발하는 이유를 조사한다.
이 공정성 문제의 근본 원인을 데이터 불균형이나 모델 용량 문제와 구분하여 이해한다.
적대적 훈련에서 클래스 간 강건성 격차를 완화하는 새로운 프레임워크인 Fair Robust Learning (FRL)을 제안한다.
여러 데이터셋, 모델, 적대적 훈련 방법에 걸쳐 FRL의 효과를 검증한다.

제안 방법

적대적 훈련 중 각 클래스의 경계 오차를 동적으로 재가중하는 Fair Robust Learning (FRL) 프레임워크를 제안한다.
성능이 열악한 클래스의 노이즈 간격을 증가시켜 강건성을 향상시키는 재매핑 전략을 도입한다.
경계 오차가 높은 클래스에 더 높은 손실 가중치를 할당하는 재가중 메커니즘을 적용하여 모델이 어려운 클래스에 더 집중하도록 유도한다.
표준 오차와 강건 오차를 동시에 최소화하면서도 클래스별 가중치를 통해 공정성을 확보하는 최소-최대 최적화 목표를 사용한다.
FRL의 두 가지 변형인 FRL (Reweight)과 FRL (Remap)을 구현하며, 후자가 강건성 균형을 더 잘 달성하는 것으로 나타났다.
재가중과 간격 재매핑이 클래스 간 성능에 미치는 영향을 분석하기 위해 광범위한 아블레이션 연구를 수행한다.

실험 결과

연구 질문

RQ1균형 잡힌 데이터셋에서도 적대적 훈련 알고리즘이 표준 정확도와 강건성에서 심각한 클래스 간 격차를 유발하는 이유는 무엇인가?
RQ2적대적 훈련의 내재된 메커니즘 중 어떤 것이 더 쉬운 클래스를 선호하고 더 어려운 클래스의 성능을 떨어뜨리는가?
RQ3클래스별 오차의 동적 재가중을 통해 적대적 훈련의 공정성 문제를 완화할 수 있는가?
RQ4재가중 경계 오차와 노이즈 간격 증가와 같은 다양한 완화 전략이 클래스 간 강건성 균형에 어떤 영향을 미치는가?
RQ5제안된 FRL 프레임워크는 전체 모델 성능 저하 없이 최악의 클래스 강건성을 얼마나 향상시킬 수 있는가?

주요 결과

PGD를 사용한 CIFAR-10에서의 적대적 훈련은 '자동차' 클래스에 대해 67%의 강건 정확도를 기록하지만, '고양이' 클래스에선 단지 17%에 그친다. 이는 클래스 간 균형이 유지됨에도 불구하고 심각한 격차를 보인다.
PGD로 훈련된 모델은 '고양이' 이미지에 대해 표준 오차 32.8%와 강건 오차 82.4%를 기록하며, 평균 오차 15.5%와 56.4%를 크게 초과한다.
FRL (Remap)은 '고양이' 이미지의 최악 클래스 강건 오차를 82.4%에서 57.6%로 감소시켜 공정성 향상에 기여한다.
재가중만으로는 강건성을 향상시키지 못하며, 표준 오차는 증가하고 경계 오차는 감소함으로써 상충 관계가 존재함을 시사한다.
노이즈 간격을 재매핑하는 것이 표준 오차 증가 없이 경계 오차를 효과적으로 감소시켜 재가중보다 더 효과적인 것으로 나타났다.
FRL 프레임워크는 CIFAR-10, SVHN, Tiny ImageNet 등 여러 데이터셋과 모델에서 적대적 강건성의 최신 기준 수준의 공정성을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.