QUICK REVIEW

[논문 리뷰] Better Safe Than Sorry: Preventing Delusive Adversaries with Adversarial Training

Lue Tao, Lei Feng|arXiv (Cornell University)|2021. 02. 09.

Adversarial Robustness in Machine Learning인용 수 17

한 줄 요약

이 논문은 자연스러운 정확도를 떨어뜨리되 잘못된 레이블을 부여하지 않는 악성 학습 시점의 교란(즉, delusive 공격)에 대비해 적절한 방어 수단으로 적대적 훈련을 제안한다. ∞-Wasserstein 구내에 delusive 공격를 수학적으로 정의함으로써, 훈련 데이터에 교란을 가한 상황에서 적대적 리스크를 최소화하는 것이 원래의 청소년 데이터에 대한 자연스러운 리스크의 상한선을 최적화하는 것과 동치임을 보여주며, 이는 다양한 벤치마크와 공격 유형에서 delusive 적대자에 의한 성능 손실을 복구할 수 있음을 시사한다.

ABSTRACT

Delusive attacks aim to substantially deteriorate the test accuracy of the learning model by slightly perturbing the features of correctly labeled training examples. By formalizing this malicious attack as finding the worst-case training data within a specific $\\infty$-Wasserstein ball, we show that minimizing adversarial risk on the perturbed data is equivalent to optimizing an upper bound of natural risk on the original data. This implies that adversarial training can serve as a principled defense against delusive attacks. Thus, the test accuracy decreased by delusive attacks can be largely recovered by adversarial training. To further understand the internal mechanism of the defense, we disclose that adversarial training can resist the delusive perturbations by preventing the learner from overly relying on non-robust features in a natural setting. Finally, we complement our theoretical findings with a set of experiments on popular benchmark datasets, which show that the defense withstands six different practical attacks. Both theoretical and empirical results vote for adversarial training when confronted with delusive adversaries.

연구 동기 및 목표

적대자들이 올바르게 레이블이 부여된 훈련 데이터를 미묘하게 교란하여 모델의 일반화 능력을 떨어뜨리는 delusive 공격의 증가하는 위협을 다루기.
교란된 예제가 정확하게 레이블이 부여되어 있고 많을 경우에 표준 데이터 정제 및 탐지 방법이 실패하는 한계를 극복하기.
교란된 예제를 기각하지 않고도 적대적 훈련이 delusive 공격에 대비하여 방어할 수 있음을 보여주어 데이터 유용성을 유지하기.
delusive 적대자에 의해 도입된 비강건하고 취약한 특징에 대한 모델의 과도한 의존을 방지하는 내부 메커니즘을 밝히기.
감독 및 자기감독 학습 작업에서 CIFAR-10, SVHN, ImageNet 서브셋에 대해 여섯 가지 다양한 실용적 공격에 대해 실증적으로 방어 성능을 검증하기.

제안 방법

레이블을 유지하면서 가장 나쁜 경우의 훈련 데이터를 ∞-Wasserstein 구내에서 찾는 방식으로 delusive 공격를 수학적으로 정의하여 가장 해로운 교란을 모델링하기.
교란된 데이터에서 적대적 리스크를 최소화하는 것이 원래 데이터에 대한 자연스러운 리스크의 상한선을 최적화하는 것과 동치임을 증명하기.
이 동치성에 기반해 delusive 적대자에 대비한 적대적 훈련이 원칙적인 방어 수단임을 정당화하기.
두 가지 교란 방향인 적대적(P1, P3) 및 위선적(P2, P4)을 분석하여, 적대적 훈련이 서로 다른 메커니즘을 통해 둘 다에 저항함을 보여주기.
실증 평가를 위해 다섯 가지 실용적 공격 변형을 도입: P1(적대적), P2(위선적), P3(일반화된 적대적), P4(일반화된 위선적), P5(일반화된 무작위 교란)
이러한 공격로 오염된 데이터셋에 표준 적대적 훈련(PGD 기반 등)을 적용하여 청소년 테스트 세트에서의 강건성과 일반화 능력을 평가하기.

실험 결과

연구 질문

RQ1적대적 훈련은 잘못된 레이블 없이 정상적으로 레이블이 부여된 훈련 데이터를 교란하는 delusive 공격에 효과적으로 대비할 수 있는가?
RQ2왜 delusive 오염 상황에서 적대적 훈련이 자연스러운 정확도를 향상시키는지에 대한 이론적 근거는 존재하는가?
RQ3적대적 훈련은 delusive 적대자에 의해 도입된 비강건한 특징의 부정적 영향을 어떻게 완화하는가?
RQ4유니버설 및 무작위 교란을 포함한 다양한 공격 유형에 대해 방어 성능이 유지되는가?
RQ5실제 세계의 신뢰할 수 없는 데이터 소스가 존재하는 상황에서 delusive 공격로 인해 떨어진 성능을 적대적 훈련이 복구할 수 있는가?

주요 결과

모든 훈련 예제가 교란된 경우에도 delusively 오염된 데이터에서 적대적 훈련을 수행하면, 그렇지 않으면 심각하게 떨어질 자연스러운 테스트 정확도를 복구할 수 있다.
이론적 분석에 따르면, 오염된 데이터에서 적대적 리스크를 최소화하는 것은 청소년 데이터에 대한 자연스러운 리스크의 상한선을 최적화하는 것과 동치이며, 이는 방어 메커니즘의 정당성을 뒷받침한다.
적대적 훈련은 delusive 공격에 의해 도입된 비강건하고 취약한 특징에 대한 모델의 과도한 의존을 방지하여 일반화 능력을 향상시킨다.
CIFAR-10, SVHN, ImageNet 서브셋에서 유니버설 적대적 및 위선적 교란을 포함한 여섯 가지의 다른 공격에 대해 방어 성능이 뛰어나게 유지된다.
단순한 P5 공격(클래스별 무작위 교란)은 놀랍게 효과가 있었지만, 적대적 훈련은 이를 성공적으로 완화하였다.
실증 결과는 적대적 훈련이 테스트 시점의 적대적 예제에 효과적인 것뿐만 아니라, 더 침습적인 delusive 학습 시점 공격에 대비한 강력한 방어 수단이 됨을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.