QUICK REVIEW

[논문 리뷰] The Limitations of Adversarial Training and the Blind-Spot Attack

Huan Zhang, Hongge Chen|arXiv (Cornell University)|2019. 01. 15.

Adversarial Robustness in Machine Learning참고 문헌 52인용 수 62

한 줄 요약

이 논문은 적대적 훈련의 강건성이 테스트 포인트가 훈련 데이터 매니폴드에 얼마나 가까운지에 크게 의존한다는 것을 보여주고, 블라인드 스폿 공격을 도입하며, 고차원 데이터셋에서 강력한 방어에서도 취약성을 입증한다.

ABSTRACT

The adversarial training procedure proposed by Madry et al. (2018) is one of the most effective methods to defend against adversarial examples in deep neural networks (DNNs). In our paper, we shed some lights on the practicality and the hardness of adversarial training by showing that the effectiveness (robustness on test set) of adversarial training has a strong correlation with the distance between a test point and the manifold of training data embedded by the network. Test examples that are relatively far away from this manifold are more likely to be vulnerable to adversarial attacks. Consequentially, an adversarial training based defense is susceptible to a new class of attacks, the "blind-spot attack", where the input images reside in "blind-spots" (low density regions) of the empirical distribution of training data but is still on the ground-truth data manifold. For MNIST, we found that these blind-spots can be easily found by simply scaling and shifting image pixel values. Most importantly, for large datasets with high dimensional and complex data manifold (CIFAR, ImageNet, etc), the existence of blind-spots in adversarial training makes defending on any valid test examples difficult due to the curse of dimensionality and the scarcity of training data. Additionally, we find that blind-spots also exist on provable defenses including (Wong & Kolter, 2018) and (Sinha et al., 2018) because these trainable robustness certificates can only be practically optimized on a limited set of training data.

연구 동기 및 목표

적대적 훈련의 효과가 테스트 포인트와 훈련 데이터 매니폴드 간 거리와 어떤 관련이 있는지 측정한다.
블라인드 스폿 공격 클래스를 식별하고 정의한다. 입력이 낮은 밀도 영역에 놓이면서도 근본 데이터 분포에서 온 것일 때.
여러 강력한 방어에서도 블라인드 스폿이 존재함을 보여주고 변환된 입력이 취약점을 드러낼 수 있음을 시연한다.
고유 차원이 높은 데이터셋에 대해 적대적 훈련을 확장하는 데 대한 시사점을 논의한다.

제안 방법

훈련 매니폴드로부터의 거리 정도를 정량화하기 위해 k-최근접 이웃(k-NN) 평균 거리 값을 이용한 심층 임베딩 공간의 거리 척도를 제안한다.
신경 특징 추출 후 비선형 방법(t-SNE)으로 임베딩을 투사하여 훈련/테스트 분포를 비교하고 경험적 분포 간의 KL 발산을 추정한다.
입력에 스케일링-시프트 변환을 적용하고 변환된 이미지에서 작은 왜곡으로 적대적 예제를 생성하여 블라인드 스팟 공격을 정의한다.
지정된 에psilon 경계 하에 Madry 등(Madry et al.)의 적대적 훈련과 C&W 공격을 사용하여 MNIST, Fashion-MNIST, CIFAR-10에서 강건성과 공격 성공률을 평가한다.
강건성이 훈련 데이터와의 거리와 상관관계가 있으며 블라인드 스폿이 인증된 방어도 약화시킬 수 있음을 보인다.

실험 결과

연구 질문

RQ1적대적 훈련의 강건성이 테스트 포인트와 훈련 데이터 매니폴드 간 거리와 상관관계가 있는가?
RQ2훈련 데이터로부터 멀리 떨어진 입력(블라인드 스폿)이 여전히 올바르게 분류될 수 있으며 작은 왜곡으로 쉽게 교란될 수 있는가?
RQ3블라인드 스폿은 인증된 방어를 포함한 강력한 방어에도 존재하며 간단한 변환으로 이를 드러낼 수 있는가?
RQ4고차원 데이터가 적대적 훈련의 확장성에 미치는 시사점은 무엇인가?
RQ5간단한 입력 변환이 자연 정확도를 해치지 않으면서 강건성에 어떤 영향을 미치는가?

주요 결과

MNIST, Fashion-MNIST, CIFAR-10에서 테스트 데이터에 대한 적대적 훈련의 효과는 훈련 매니폴드까지의 거리와 상관관계가 있다.
블라인드 스폿 입력은 실험적 훈련 분포의 저밀도 영역에 위치하지만 실제 데이터 매니폴드에 있으며 작은 왜곡으로 쉽게 공격당한다.
간단한 스케일-시프트 변환은 MNIST와 Fashion-MNIST 모델에서 블라인드 스팟을 드러내며 자연 정확도에 현저한 손상을 주지 않는다.
블라인드 스폿은 강력한 방어에서도 만연하며, 그 존재는 CIFAR-10 및 ImageNet과 같은 고차원 데이터 셋에 대한 강건성 확장의 한계를 설명하는 데 도움을 준다.
CIFAR-10은 훈련 및 테스트 분포 간의 KL 발산이 더 크고 적대적 훈련된 모델에서 공격 성공률이 더 높다( MNIST/Fashion-MNIST와 비교하여).
실험은 작은 입력 교란이 원래 테스트 이미지를 블라인드 스폿으로 밀어넣어 강건성을 손상시킬 수 있으며 훈련 정확도가 높더라도 이를 초래할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.