QUICK REVIEW

[논문 리뷰] On the Limitation of Local Intrinsic Dimensionality for Characterizing the Subspaces of Adversarial Examples.

Pei Hsuan Lu, Pin Yu Chen|arXiv (Cornell University)|2018. 02. 12.

Adversarial Robustness in Machine Learning인용 수 4

한 줄 요약

이 논문은 딥 네ural 네트워크 활성화에서 적대적 부분공간을 특성화하는 데 있어 局소 내재 차원수(LID)의 한계를 조사한다. MNIST와 CIFAR-10을 사용하여, 다양한 신뢰도 수준을 가진 무지식 공격과 블랙박스 전이 공격 하에서 LID가 적대적 부분공간을 신뢰성 있게 포착하지 못함을 보여주며, LID의 정밀성 분석에 있어 상당한 제약을 드러낸다.

ABSTRACT

Understanding and characterizing the subspaces of adversarial examples aid in studying the robustness of deep neural networks (DNNs) to adversarial perturbations. Very recently, Ma et al. (ICLR 2018) proposed to use local intrinsic dimensionality (LID) in layer-wise hidden representations of DNNs to study adversarial subspaces. It was demonstrated that LID can be used to characterize the adversarial subspaces associated with different attack methods, e.g., the Carlini and Wagner's (C&W) attack and the fast gradient sign attack. In this paper, we use MNIST and CIFAR-10 to conduct two new sets of experiments that are absent in existing LID analysis and report the limitation of LID in characterizing the corresponding adversarial subspaces, which are (i) oblivious attacks and LID analysis using adversarial examples with different confidence levels; and (ii) black-box transfer attacks. For (i), we find that the performance of LID is very sensitive to the confidence parameter deployed by an attack, and the LID learned from ensembles of adversarial examples with varying confidence levels surprisingly gives poor performance. For (ii), we find that when adversarial examples are crafted from another DNN model, LID is ineffective in characterizing their adversarial subspaces. These two findings together suggest the limited capability of LID in characterizing the subspaces of adversarial examples.

연구 동기 및 목표

다양한 공격 유형 간에 적대적 부분공간을 특성화하는 데 있어 국소 내재 차원수(LID)의 효과성을 평가하기 위해.
적대적 공격에서 다양한 신뢰도 수준이 LID의 잠재적 부분공간 탐지 능력에 미치는 영향을 조사하기 위해.
다른 모델에서 생성된 적대적 예제에 LID를 적용했을 때의 성능을 평가하기 위해.
딥 네럴 네트워크 표현에서 적대적 예제 기하학을 분석하는 도구로서 LID의 내재적 한계를 규명하기 위해.
LID가 적대적 부분공간의 내재 차원수를 신뢰성 있게 포착한다는 가정을 도전할 수 있는 경험적 증거를 제공하기 위해.

제안 방법

딥 네럴 네트워크의 계층별 은닉 표현을 사용하여 MNIST 및 CIFAR-10 데이터셋에서 실험을 수행하기 위해.
무지식 공격에서 다양한 신뢰도 수준으로 생성된 적대적 예제에 대해 LID 추정을 적용하기 위해.
다양한 신뢰도 수준을 가진 적대적 예제에 대해 앙상블 기반 LID 추정을 사용하여 측정치의 강건성 평가하기 위해.
다른 사전 훈련된 모델에서 생성된 적대적 예제(블랙박스 전이 공격)에 대해 LID를 평가하기 위해.
정상 예제, 적대적 예제 및 그들의 부분공간 간의 LID 값을 비교하여 기하학적 특성화 능력 평가하기 위해.
신뢰도 수준 및 모델 전이 가능성과 같은 하이퍼파ram터에 대한 LID의 민감도 분석하기 위해.

실험 결과

연구 질문

RQ1적대적 공격의 신뢰도 수준이 LID가 결과로 발생한 적대적 부분공간을 특성화하는 데 미치는 영향은 무엇인가?
RQ2다양한 신뢰도 수준을 가진 앙상블 내에서 LID는 적대적 부분공간을 안정적으로 식별할 수 있는가?
RQ3적대적 예제가 다른 모델에서 생성된 경우(블랙박스 설정), LID는 여전히 적대적 부분공간을 특성화하는 데 효과적인가?
RQ4전이 가능한 공격 하에서 LID는 적대적 부분공간의 진정한 기하학적 구조를 어느 정도 반영하는가?
RQ5딥 네럴 네트워크에서 적대적 강건성 진단 도구로서 LID의 한계는 무엇인가?

주요 결과

LID 성능은 적대적 공격에서 사용된 신뢰도 파라미터에 매우 민감하며, 신뢰도가 변할수록 성능이 크게 떨어진다.
다양한 신뢰도 수준을 가진 적대적 예제에 대해 앙상블 기반 LID 추정을 수행했을 때 성능이 열악하여 부분공간 탐지의 불안정성을 나타낸다.
다른 모델에서 생성된 적대적 예제(블랙박스 전이)에 대해 LID는 해당 적대적 부분공간을 효과적으로 특성화하지 못한다.
무지식 공격에서 변수적 신뢰도와 블랙박스 전이 공격의 조합이 LID의 다양한 적대적 예제 유형 간 일반화 능력에 대한 근본적인 한계를 드러낸다.
이러한 발견들은 LID가 딥 네럴 네트워크 표현에서 적대적 부분공간의 내재 기하학을 특성화하는 데 신뢰할 만하거나 강건한 측정법이 아니라는 것을 종합적으로 시사한다.
결과는 LID가 DNN 표현에서 적대적 예제의 구조를 탐색하는 데 보편적인 도구로 기능할 수 있다는 가정을 도전한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.