QUICK REVIEW

[논문 리뷰] Theoretically Principled Trade-off between Robustness and Accuracy

Hongyang Zhang, Yaodong Yu|arXiv (Cornell University)|2019. 01. 24.

Adversarial Robustness in Machine Learning참고 문헌 68인용 수 919

한 줄 요약

이 논문은 강건 오류를 자연 오류와 경계 오류의 합으로 분해하고, 분류 보정 손실(classification-calibrated losses)을 통해 단단한 대리 상한을 도출하며, 적대적 강건성(adversarial robustness)과 자연 정확도 사이의 균형을 맞추는 TRADES를 제안하며, 강력한 실증 결과를 제시한다.

ABSTRACT

We identify a trade-off between robustness and accuracy that serves as a guiding principle in the design of defenses against adversarial examples. Although this problem has been widely studied empirically, much remains unknown concerning the theory underlying this trade-off. In this work, we decompose the prediction error for adversarial examples (robust error) as the sum of the natural (classification) error and boundary error, and provide a differentiable upper bound using the theory of classification-calibrated loss, which is shown to be the tightest possible upper bound uniform over all probability distributions and measurable predictors. Inspired by our theoretical analysis, we also design a new defense method, TRADES, to trade adversarial robustness off against accuracy. Our proposed algorithm performs well experimentally in real-world datasets. The methodology is the foundation of our entry to the NeurIPS 2018 Adversarial Vision Challenge in which we won the 1st place out of ~2,000 submissions, surpassing the runner-up approach by $11.41\%$ in terms of mean $\ell_2$ perturbation distance.

연구 동기 및 목표

적대적 분류에서 강건성-정확도 간의 균형을 동기 부여하고 형식화한다.
강건 오류를 자연 오류와 경계 오류로 분해하고 대리 손실(surrogate losses)을 사용해 그것을 상한으로 바운드한다.
단단한 상한과 하한을 갖는 분류 보정 이론적 프레임워크를 제공한다.
정확도와 강건성 간의 균형을 최적화하는 방어(TRADES)를 설계하고 평가한다.

제안 방법

적대적 섭동에 대해 강건 오류와 자연 오류 및 경계 항을 정의한다.
분류 보정 대리 손실을 사용해 강건성 관련 오류에 대한 미분 가능 상한을 도출한다.
자연 정확도와 경계로 유도된 강건성을 맞바꾸는 최적화 목적 함수(TRADES)를 제안한다.
대리 위험(bound) 상한을 조정 가능한 정규화 매개변수 lambda를 통해 실용적인 학습 절차와 연결한다.
보정된 손실이 포함된 다항렬 분류 설정으로 확장하고 교대 기울기 학습 방법(알고리즘 1)을 제공한다.
이전의 강건 최적화 및 정규화 기반 방어와의 연관성을 논의하고 이론적·실험적으로 비교한다.

실험 결과

연구 질문

RQ1적대적 섭동에 대한 강건성이 분류의 표준 정확도와 이론적으로 어떻게 관련될 수 있는가?
RQ2강건 오류를 자연 오류와 경계 오류로 뚜렷하고 미분 가능한 상한으로 분해할 수 있는가?
RQ3분류 보정이 된 대리 손실이 강건성-정확도 균형을 어떻게 상한으로 제한하는가?
RQ4이 경계에서 영감을 받은 학습 목표(TRADES)가 기존 방어 방법에 비해 정확도를 희생하지 않으면서 강건성을 향상시키는가?
RQ5제안된 방법이 대규모 데이터셋에 어떻게 확장되고 다중 클래스 문제로 확장되는가?

주요 결과

강건 오류는 자연 오류와 경계 오류의 합과 같다.
두 용어에 대해 분류 보정 손실과 psi 변환을 통해 미분 가능하고 단단한 상한이 존재하며, 분포와 예측기에 대해 균일하다.
TRADES는 자연 위험과 강건성 정규화를 균형 잡는 대리 목적함수를 최적화하여 강건성을 개선하고 정확도는 유지한다.
실험 결과 TRADES가 화이트박스 및 블랙박스 위협에서 여러 선행 방어보다 더 높은 강건 정확도를 달성함을 보인다(예: CIFAR10에서 다양한 공격).
MNIST 및 CIFAR10에서 lambda를 조정하면 예상되는 강건성-정확도 균형이 나타나며, 1/lambda가 높아질수록 자연 정확도에 일정 비용으로 강건 정확도가 증가한다; TRADES는 NeurIPS 2018 Adversarial Vision Challenge에서 강력한 성능을 보였다(1위).
이론적 상한은 일반적인 대리 손실(예: 힌지, 로지스틱, 교차 엔트로피)에 대해 합리적인 조건하에서 단단하다고 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.