Skip to main content
QUICK REVIEW

[논문 리뷰] Interpretable Deep Learning under Fire

Xinyang Zhang, Ningfei Wang|arXiv (Cornell University)|2018. 12. 03.
Adversarial Robustness in Machine Learning참고 문헌 70인용 수 17
한 줄 요약

이 논문은 해석 가능한 딥 뉴럴 네트워크 시스템(IDLS)에서 딥 뉴럴 네트워크(DNN) 예측과 그에 연관된 해석 모델을 동시에 조작하는 새로운 적대적 공격 프레임워크인 Adv2를 소개한다. 이 연구는 존재하는 IDLS가 이러한 공격에 매우 취약하다는 것을 입증하며, 악성 공격자가 모델의 출력과 그에 따른 설명을 임의로 제어할 수 있어, 해석 가능성으로 제공되는 보안 보장을 약화시킨다. 주요 기여는 이러한 취약성의 근본 원인으로 '예측-해석 갭'을 특정하고, 적대적 해석 정규화(Aid)와 같은 대응 조치를 제안하는 것이다.

ABSTRACT

Providing explanations for deep neural network (DNN) models is crucial for their use in security-sensitive domains. A plethora of interpretation models have been proposed to help users understand the inner workings of DNNs: how does a DNN arrive at a specific decision for a given input? The improved interpretability is believed to offer a sense of security by involving human in the decision-making process. Yet, due to its data-driven nature, the interpretability itself is potentially susceptible to malicious manipulations, about which little is known thus far. Here we bridge this gap by conducting the first systematic study on the security of interpretable deep learning systems (IDLSes). We show that existing \imlses are highly vulnerable to adversarial manipulations. Specifically, we present ADV^2, a new class of attacks that generate adversarial inputs not only misleading target DNNs but also deceiving their coupled interpretation models. Through empirical evaluation against four major types of IDLSes on benchmark datasets and in security-critical applications (e.g., skin cancer diagnosis), we demonstrate that with ADV^2 the adversary is able to arbitrarily designate an input's prediction and interpretation. Further, with both analytical and empirical evidence, we identify the prediction-interpretation gap as one root cause of this vulnerability -- a DNN and its interpretation model are often misaligned, resulting in the possibility of exploiting both models simultaneously. Finally, we explore potential countermeasures against ADV^2, including leveraging its low transferability and incorporating it in an adversarial training framework. Our findings shed light on designing and operating IDLSes in a more secure and informative fashion, leading to several promising research directions.

연구 동기 및 목표

  • 해석 가능한 딥 뉴럴 네트워크 시스템(IDLS)의 보안 취약성을 조사하며, 여기서 DNN 분류기와 그 해석 모델이 모두 적대적 조작에 취약하다는 점을 다룬다.
  • 해석 가능성이 보통 보안 강화 수단으로 여겨지지만, 적대적 공격에 의해 이와 같은 해석 가능성이 뒤집힐 수 있는지에 대한 이해 부족을 해결한다.
  • 특히 DNN 예측과 해석 모델 출력 간의 불일치가 원인인 IDLS의 취약성의 근본 원인을 규명한다.
  • 다양한 해석 모델 간 적대적 입력의 이동성과 앙상블 기반 방어 전략을 탐색한다.
  • DNN 예측과 해석 모델 간의 불일치를 줄이고 해석 모델의 강건성을 향상시키기 위해 새로운 적대적 훈련 프레임워크인 적대적 해석 정규화(Aid)를 제안하고 검증한다.

제안 방법

  • DNN와 그에 연결된 해석 모델을 동시에 오도하는 입력을 생성하는 새로운 적대적 공격 클래스인 Adv2를 제안한다.
  • 공격자가 원하는 결과를 달성하기 위해 DNN의 예측 클래스와 해석 모델의 기여도 맵을 동시에 제어할 수 있는 공동 최적화 목표를 설계한다.
  • 기울기 기반(예: Grad-CAM), 활성도 기반(예: GradCAM++), 변형 기반(예: LIME), 표현 기반(예: LayerCAM)의 네 가지 주요 해석 모델 유형에 대해 Adv2를 실험적으로 평가한다.
  • 다양한 모델과 데이터셋 간에 DNN 예측과 해석 맵 간의 통계적 및 공간적 불일치를 측정하여 예측-해석 갭을 분석한다.
  • 한 해석 모델에서 생성한 적대적 입력이 다른 해석 모델로의 이동성을 조사하여 Adv2의 이동성 특성을 탐구한다.
  • Adv2로 생성된 예제를 해석 모델 훈련 중에 통합하여 강건성을 향상시키는 적대적 해석 정규화(Aid)라는 적대적 훈련 프레임워크를 제안한다.

실험 결과

연구 질문

  • RQ1적대적 입력을 조작하여 DNN의 예측과 관련된 해석을 동시에 조작할 수 있는가?
  • RQ2예측-해석 갭이 이러한 이중 조작을 가능하게 하는 역할은 무엇이며, 다양한 해석 모델 간에 이 갭은 어떻게 다를까?
  • RQ3Adv2로 생성된 적대적 입력은 다양한 유형의 해석 모델 간에 얼마나 이동 가능한가?
  • RQ4Adv2 입력을 사용한 적대적 훈련이 해석 모델의 강건성을 향상시킬 수 있는가?
  • RQ5현재 보안 중심 응용 분야에서 해석 가능성에 의존하는 것이 얼마나 잘못된 안전감각을 야기하는가?

주요 결과

  • Adv2는 DNN 분류기와 그 해석 모델을 동시에 오도하는 적대적 입력을 성공적으로 생성하여 공격자가 예측과 설명을 임의로 제어할 수 있음을 입증한다.
  • 기본 데이터셋(CIFAR-10, ImageNet 등)과 실제 응용(예: 피부암 진단)에 대한 실험 평가를 통해 Adv2가 다양한 DNN 및 해석 모델 조합에서 높은 성공률을 달성함을 확인한다.
  • 예측-해석 갭—즉, 해석 모델이 DNN 의사결정 과정과 완전히 일치하지 않는 현상—이 이중 조작을 가능하게 하는 핵심 취약점으로 규명되었다.
  • Adv2는 다양한 유형의 해석 모델 간에 낮은 이동성을 보이며, 이는 백프로파게이션 기반과 입력 변형 기반 등 서로 다른 시각을 가진 모델이 동일한 적대적 입력에 의해 쉽게 속이지 않는다는 것을 시사한다.
  • 적대적 해석 정규화(Aid)는 예측-해석 갭을 효과적으로 줄이고 Adv2 공격에 대한 해석 모델의 강건성을 향상시키며, 이는 분석 실험을 통해 입증되었다.
  • 연구는 해석 가능성 자체가 적대적 환경에서 보안 수단으로 신뢰할 수 없다는 것을 드러내며, 공격자가 예측과 설명 간의 불일치를 악용할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.