QUICK REVIEW

[논문 리뷰] Excessive Invariance Causes Adversarial Vulnerability

Jörn-Henrik Jacobsen, Jens Behrmann|arXiv (Cornell University)|2018. 11. 01.

Adversarial Robustness in Machine Learning참고 문헌 50인용 수 59

한 줄 요약

이 논문은 심층 신경망이 무관한 변화에는 지나치게 민감할 뿐만 아니라 작업 관련 변화에는 지나치게 불변하여 광범위한 적대적 취약점을 초래함을 주장한다. 이를 연구하기 위해 가역적 네트워크를 도입하고 과도한 불변성을 줄이기 위한 정보 이론적 목표를 제안한다.

ABSTRACT

Despite their impressive performance, deep neural networks exhibit striking failures on out-of-distribution inputs. One core idea of adversarial example research is to reveal neural network errors under such distribution shifts. We decompose these errors into two complementary sources: sensitivity and invariance. We show deep networks are not only too sensitive to task-irrelevant changes of their input, as is well-known from epsilon-adversarial examples, but are also too invariant to a wide range of task-relevant changes, thus making vast regions in input space vulnerable to adversarial attacks. We show such excessive invariance occurs across various tasks and architecture types. On MNIST and ImageNet one can manipulate the class-specific content of almost any image without changing the hidden activations. We identify an insufficiency of the standard cross-entropy loss as a reason for these failures. Further, we extend this objective based on an information-theoretic analysis so it encourages the model to consider all task-dependent features in its decision. This provides the first approach tailored explicitly to overcome excessive invariance and resulting vulnerabilities.

연구 동기 및 목표

작업과 아키텍처 전반에 걸친 과도한 불변성을 적대적 취약성의 핵심 원인으로 식별한다.
활성화가 변하지 않으면서 클래스 특유의 내용이 바뀔 수 있음을 입증한다(불변성 기반 적대적 예시).
가역적 네트워크를 사용하여 의사결정 관련 요인과 잡음 요인을 접근하고 조작하는 방법을 제시한다.
크로스 엔트로피의 한계를 정보 이론적 성질과 연결하고 해결책을 제시한다.
벤치마크 데이터셋에서 독립성 크로스 엔트로피(iCE) 목표를 사용한 실용적 개선을 보여준다.

제안 방법

프리이미지(Pre-images)를 정의하고 불변성과 적대적 예시를 연결한다.
완전히 가역적인 RevNets를 사용하여 의미 변수(logits)와 잡음 변수(hidden)를 접근한다.
z_s와 z_n 사이의 의존성을 시각화하고 분석하기 위한 메타메릭 샘플링을 개발한다.
정보 이론적 분석을 통해 크로스 엔트로피의 불충분함을 식별한다.
잡음 분류기와 잡음 요인에 대한 선택적 최대우도 항을 가진 독립성 크로스 엔트로피(iCE) 손실을 제안한다.
MNIST, ImageNet, 및 shiftMNIST 변형에서 iCE를 평가하고 adversarial-spheres 토이 문제를 포함하여 평가한다.

실험 결과

연구 질문

RQ1분류기가 작업 관련 변화에 대해 지나치게 불변하여 적대적 취약성으로 이어질 수 있는가?
RQ2가역적 네트워크가 표준 아키텍처가 무시하는 불변 부분공간을 드러내고 정량화하는가?
RQ3정보 이론적 목표가 모든 작업 의존 특징의 학습을 촉진하여 불변성을 줄일 수 있는가?
RQ4독립성 크로스 엔트로피 목표가 실제로 불변성 기반의 적대적 취약성을 완화하는가?

주요 결과

모델	ILSVRC2012 검증 Top1	ILSVRC2012 검증 Top5
fi-RevNet48 (Ours)	29.50	11.30
VGG19	28.70	9.90
ResNet18	30.43	10.80
ResNet50	24.70	7.89
iRevNet300	26.70	-

활동을 바꾸지 않고도 분류 내용이 바뀔 수 있는 불변성 기반의 적대적 예제는 MNIST, ImageNet 및 합성 과제 전반에 존재한다.
완전히 가역적인 RevNets는 로짓이 일정하게 유지되더라도 의미적 내용이 극적으로 바뀔 수 있음을 보여주며, 과도한 불변성을 시사한다.
메타메릭 샘플링은 로그잇 활성화는 유지되면서도 잡음 변수들이 외관을 지배할 수 있음을 보여준다.
크로스 엔트로피만으로는 레이블과 표현 간의 상호 정보를 최대화할 수 있지만 분포 이동하에서 이는 로버스트함을 떨어뜨릴 수 있으며, iCE는 잡음에 대한 정보를 최소화하여 이를 방지한다.
독립성 크로스 엔트로피 목표는 불변성 기반 취약점을 줄이고 분포 이동(예: shiftMNIST)에서 로버스트함을 최대 약 38 퍼센트 포인트까지 향상시킨다.
ILSVRC-2012 검증에서 fi-RevNet 변형은 VGG19 및 ResNet에 비해 경쟁력 있는 Top1/Top5 오류를 달성한다(예: fi-RevNet48: Top1 29.50, Top5 11.30).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.