QUICK REVIEW

[논문 리뷰] Cross-Entropy Loss and Low-Rank Features Have Responsibility for Adversarial Examples

Kamil Nar, Orhan Öçal|arXiv (Cornell University)|2019. 01. 24.

Adversarial Robustness in Machine Learning인용 수 30

한 줄 요약

이 논문은 신경망 활성화에서 교차 엔트로피 손실과 저질서 특징이 적대적 예제의 주요 원인임을 규명한다. 이를 바탕으로 클래스 간 특징 차이를 기반으로 한 새로운 손실 함수인 차별적 훈련(differential training)을 제안하며, 이는 클래스 간 간격을 크게 하여 CIFAR-10에서 적대적 성공률를 크게 감소시키며, 테스트 데이터로의 일반화 능력까지 우수하다.

ABSTRACT

State-of-the-art neural networks are vulnerable to adversarial examples; they can easily misclassify inputs that are imperceptibly different than their training and test data. In this work, we establish that the use of cross-entropy loss function and the low-rank features of the training data have responsibility for the existence of these inputs. Based on this observation, we suggest that addressing adversarial examples requires rethinking the use of cross-entropy loss function and looking for an alternative that is more suited for minimization with low-rank features. In this direction, we present a training scheme called differential training, which uses a loss function defined on the differences between the features of points from opposite classes. We show that differential training can ensure a large margin between the decision boundary of the neural network and the points in the training dataset. This larger margin increases the amount of perturbation needed to flip the prediction of the classifier and makes it harder to find an adversarial example with small perturbations. We test differential training on a binary classification task with CIFAR-10 dataset and demonstrate that it radically reduces the ratio of images for which an adversarial example could be found -- not only in the training dataset, but in the test dataset as well.

연구 동기 및 목표

딥 신경망에서 적대적 예제의 근본 원인을 규명하는 것.
교차 엔트로피 손실과 저질서 특징 구조가 결정 경계 간격을 약화시키는 방식을 분석하는 것.
적대적 편향에 대한 일반화 능력과 강건성을 향상시키는 훈련 방식을 제안하는 것.
차별적 훈련이 훈련 및 테스트 데이터 모두에서 더 높은 강건성을 달성함을 입증하는 것.

제안 방법

반대 클래스의 점들 간 특징 차이를 기반으로 한 새로운 손실 함수를 제안하는 것.
이 손실을 최소화하기 위해 경사 하강법을 사용하여, 이는 최전단 층에서 클래스 간 기하학적 간격을 크게 하도록 유도한다.
이론적으로 이 손실을 최소화할 경우 선형 분류기의 최적 하드 마진 해에 수렴함을 증명하는 것.
비선형 네트워크에 대해 수정된 손실 함수를 적용하고, CIFAR-10에서 테스트하는 것.
훈련 및 테스트 세트에서 강건성을 평가하기 위해 투영된 경사 하강 공격(Projected Gradient Descent)을 사용하는 것.
결과적으로 생성된 모델이 훈련 및 테스트 분포에서 유도된 적대적 예제 모두에서 높은 정확도를 유지함을 보여주는 것.

실험 결과

연구 질문

RQ1정상 데이터에서 높은 정확도를 보이는 최신 딥 네트워크가 작은 적대적 편향에 매우 취약한 이유는 무엇인가?
RQ2교차 엔트로피 손실 사용이 훈련 데이터 포인트 근처에 결정 경계를 형성하는 데 기여하는 방식은 무엇인가?
RQ3딥 네트워크의 최전단 층에서 저질서 특징이 얼마나 작은 편향을 통해 입력을 잘못 분류하게 하는가?
RQ4클래스 간 특징 차이를 기반으로 한 훈련 목표 함수가 더 큰 간격과 향상된 강건성을 만들어낼 수 있는가?
RQ5제안된 방법이 훈련 분포를 초월한 적대적 예제에 대해서도 강건성을 일반화할 수 있는가?

주요 결과

차별적 훈련은 PGD 공격 하에서 CIFAR-10의 훈련 및 테스트 세트에서 적대적 예제 비율을 근본적으로 0에 가깝게 줄였다.
차별적 훈련으로 학습된 네트워크는 훈련 및 테스트에서 생성된 편향된 예제 모두에서 높은 정확도를 유지하며, 강건성을 일반화함을 보였다.
실험 결과는 훈련된 네트워크의 최전단 층에서 특징이 저질서임을 확인하여 이론적 분석을 뒷받침했다.
이론적 분석을 통해 경사 하강법으로 차별적 손실을 최소화할 경우 선형 분류기의 최적 하드 마진 해에 수렴함을 입증했다.
이 방법은 정상 데이터 정확도를 희생시키지 않고도 강건성을 향상시키며, 데이터 분포 간에서 강건성이 일반화됨을 확인했다.
이 연구는 저질서 특징 구조를 통해 교차 엔트로피 손실과 적대적 취약성 간의 인과 관계를 규명했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.