QUICK REVIEW

[논문 리뷰] A Theoretical Framework for Robustness of (Deep) Classifiers against Adversarial Examples

Beilun Wang, Ji Gao|arXiv (Cornell University)|2016. 12. 01.

Adversarial Robustness in Machine Learning참고 문헌 67인용 수 28

한 줄 요약

이 논문은 머신 러닝 분류기의 적대적 예제에 대한 내성적 저항력을 분석하기 위해 위상수학적 이론 프레임워크를 제안한다. 이는 분류기(f1)와 오라클(f2, 예: 인간의 인지 능력) 간의 관계를 모델링함으로써 이루어지며, f2가 올바르게 분류할 때 항상 f1도 올바르게 분류하는 '강력한 내성적 저항성'에 필요한 필수 조건과 충분한 조건을 규명한다. 이로써 특징 표현 학습(g1)의 중요성이 드러나며, 한 개의 불필요한 특징조차도 내성적 저항성을 파괴할 수 있음을 보여준다.

ABSTRACT

Most machine learning classifiers, including deep neural networks, are vulnerable to adversarial examples. Such inputs are typically generated by adding small but purposeful modifications that lead to incorrect outputs while imperceptible to human eyes. The goal of this paper is not to introduce a single method, but to make theoretical steps towards fully understanding adversarial examples. By using concepts from topology, our theoretical analysis brings forth the key reasons why an adversarial example can fool a classifier ($f_1$) and adds its oracle ($f_2$, like human eyes) in such analysis. By investigating the topological relationship between two (pseudo)metric spaces corresponding to predictor $f_1$ and oracle $f_2$, we develop necessary and sufficient conditions that can determine if $f_1$ is always robust (strong-robust) against adversarial examples according to $f_2$. Interestingly our theorems indicate that just one unnecessary feature can make $f_1$ not strong-robust, and the right feature representation learning is the key to getting a classifier that is both accurate and strong-robust.

연구 동기 및 목표

딥 분류기가 적대적 예제에 취약한 이유에 대한 이론적 이해 부족을 해결하기 위해.
이전 연구에서 간과되었던 오라클(예: 인간의 인지)의 역할을 형식화하여 분류기의 내성적 저항성 평가에 기여하기 위해.
분류기가 오라클이 항상 올바르게 분류할 때 항상 올바르게 분류하는 '강력한 내성적 저항성'을 위상수학적 개념을 사용하여 정의하고 분석하기 위해.
특히 비연속적인 분류기에서 내성적 저항성을 결정짓는 핵심 요소(특징 표현 및 결정 함수)를 규명하기 위해.
딥 네URAL 네트워크의 적대적 내성적 저항성을 향상시키기 위한 이론적으로 탄탄한 실용적 지침을 제공하기 위해.

제안 방법

분류기 f1과 오라클 f2를 각각 f1 = c1 ◦ g1 및 f2 = c2 ◦ g2로 구성된 함수의 조합으로 모델링하며, g1과 g2는 특징 추출기이고 c1과 c2는 결정 함수이다.
특징 표현 간 유사도를 측정하기 위해 의사거리공간(d′1, d′2)을 도입하여 위상수학적 분석을 가능하게 한다.
f2가 올바르게 분류하고 유사하게 간주하는 모든 입력에 대해 f1도 올바르게 분류하는 조건으로서 강력한 내성적 저항성을 정의한다.
경계점과 거의 everywhere(a.e.) 연속성과 같은 위상수학적 개념을 사용하여 f1이 내성적 저항성이 없을 경우를 분석한다.
특히 g1과 c1 간의 상호작용을 중심으로 하여 강력한 내성적 저항성에 필요한 필수 조건과 충분한 조건을 네 개의 정리로 유도한다.
f1이 거의 everywhere로 연속적이지 않을 경우, 적대적 예제는 f2의 특징 공간에서 유사하지만 f1에 의해 잘못 분류되는 입력 쌍으로 간주되며, 특히 f1이 비연속일 경우에 주목한다.

실험 결과

연구 질문

RQ1어떤 조건에서 분류기가 오라클과 비교할 때 항상 적대적 예제에 대해 내성적 저항성을 가지는가?
RQ2분류기의 구성 요소 중에서 특징 추출기인지 결정 함수인지가 내성적 저항성에 가장 큰 영향을 미치는가?
RQ3왜 많은 딥 네URAL 네트워크가 적대적 예제에 취약한가? 그리고 내성적 저항성을 보장할 수 있는 이론적 조건은 무엇인가?
RQ4분류기의 특징 공간과 오라클의 특징 공간 간의 위상적 관계가 적대적 취약성에 어떻게 영향을 미치는가?
RQ5어떤 조건에서 분류기가 강력히 내성적 저항성을 가지며, 비연속성은 이러한 조건에 어떤 영향을 미치는가?

주요 결과

분류기 f1이 강력히 내성적 저항성을 가지는 것은, f2가 올바르게 분류하고 유사하게 간주하는 입력들을 f1이 잘못 분류할 확률이 0일 때에만 성립한다.
f1이 거의 everywhere로 연속적이지 않을 경우, 강력한 내성적 저항성은 특징 추출기 g1과 결정 함수 c1의 상호작용에 따라 달라진다.
표현 공간에 하나의 불필요한 특징조차도 강력한 내성적 저항성을 파괴할 수 있으며, 이는 적절한 특징 학습의 중요성을 강조한다.
강력한 내성적 저항성을 확보하기 위해서는 c1가 학습한 결정 경계가 오라클의 결정 경계와 특징 공간에서 일치해야 한다.
유한한 입력 공간에서는 적대적 예제의 확률을 잘못 분류된 유사 쌍의 비율로 정량화할 수 있으며, c1가 잘 학습되지 않았을 경우 60%의 잘못 분류율을 보이는 예시가 존재한다.
이론적 분석을 통해 강력한 내성적 저항성은 f1의 경계점 중 f2가 유사하게 간주하는 점들에 의해 크게 영향을 받으며, 특히 f1이 거의 everywhere로 연속적이지 않을 경우 더욱 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.