[논문 리뷰] Towards Interpretable Deep Neural Networks by Leveraging Adversarial Examples
논문은 뉴런 일관성 지표를 정의하고, 적대적 예제를 통해 학습된 특징의 애매함을 드러내며, 일관성 손실을 갖는 적대적 학습 방법이 뉴런 해석 가능성을 높이되 정확도는 다소 희생한다는 것을 보여준다.
Sometimes it is not enough for a DNN to produce an outcome. For example, in applications such as healthcare, users need to understand the rationale of the decisions. Therefore, it is imperative to develop algorithms to learn models with good interpretability (Doshi-Velez 2017). An important factor that leads to the lack of interpretability of DNNs is the ambiguity of neurons, where a neuron may fire for various unrelated concepts. This work aims to increase the interpretability of DNNs on the whole image space by reducing the ambiguity of neurons. In this paper, we make the following contributions: 1) We propose a metric to evaluate the consistency level of neurons in a network quantitatively. 2) We find that the learned features of neurons are ambiguous by leveraging adversarial examples. 3) We propose to improve the consistency of neurons on adversarial example subset by an adversarial training algorithm with a consistent loss.
연구 동기 및 목표
- 고위험 응용 분야에서 개별 뉴런이 개념 정렬에서 모호할 수 있으므로 해석 가능한 DNN의 필요성을 동기부여한다.
- 뉴런 간 개념의 정량적 일관성 지표를 도입하고 적대적 샘플을 이용해 모호성을 평가한다.
- 적대적 부분집합에서 뉴런 일관성을 개선하기 위한 일관성(특징 매칭) 손실이 포함된 적대적 학습 프레임워크를 제안한다.
제안 방법
- NeurON-개념 일관성 지표 consis(n,c)를 Pr(x가 활성화된 n에서 c를 포함한다)로 정의한다.
- 단어네트 기반 상관 행렬 A를 사용해 consis(n)=p^T A p를 산출하여 뉴런 일관성을 계산한다.
- 적대적 샘플과 실제 이미지에서 평가될 때 뉴런이 애매함을 보임을 보인다.
- 실제 및 적대적 예제의 분류 손실을 최소화하고 실제와 적대적 표현 간의 특징 거리 항을 더하는 일관성 손실을 가진 학습 목표를 제안한다.
- FGSM을 사용해 적대적 예제를 생성하고, L(θ) = αℓ(θ,x,y) + (1−α)ℓ(θ,x*,y) + β d(φθ(x), φθ(x*))로 결합 손실로 학습하며 x*는 적대적 예이고 φθ(·)는 특징 표현이다.
- 일반적으로 일관성 및 개념 정렬을 측정하기 위해 ImageNet 및 Broden 데이터셋에서 평가한다.
실험 결과
연구 질문
- RQ1적대적 입력으로 평가될 때 뉴런이 개념 혼동을 보이는가?
- RQ2일관된 적대적 학습 목표가 정확도에 심한 손실 없이 적대적 부분집합에서 뉴런의 애매함을 줄일 수 있는가?
- RQ3다양한 아키텍처에서 적대적 학습이 뉴런의 의미적 개념 정렬에 어떤 영향을 미치는가?
- RQ4Broden 스타일의 개념 정렬에서 뉴런 일관성이 해석 가능성 지표에 어떤 영향을 주는가?
- RQ5일관성을 강제하는 것이 해석 가능성을 개선하면서도 경쟁력 있는 강건성을 유지하는가?
주요 결과
| 모델 | 실제 Top-1 | 실제 Top-5 | 적대적 Top-1 | 적대적 Top-5 |
|---|---|---|---|---|
| AlexNet | 54.58 | 78.17 | 4.44 | 22.94 |
| VGG-16 | 68.15 | 88.30 | 8.60 | 36.94 |
| ResNet-18 | 66.30 | 87.09 | 4.41 | 31.80 |
| AlexNet-Adv | 43.92 | 62.55 | 17.45 | 38.12 |
| VGG-16-Adv | 62.55 | 84.66 | 25.62 | 56.17 |
| ResNet-18-Adv | 54.01 | 77.84 | 27.56 | 55.61 |
- 일관성 손실이 포함된 적대적 학습은 다중 아키텍처에서 적대적 이미지 부분집합에서 뉴런 일관성을 증가시킨다.
- 적대적으로 학습된 모델의 뉴런은 일반적으로 학습된 모델보다 적대적 입력에서 해석 가능한 활성화를 더 많이 유지한다.
- Broden에서 적대적으로 학습된 모델은 실제 이미지와 적대적 이미지 모두에 대해 뉴런의 의미적 개념 정렬이 더 높게 나타난다.
- 트레이드오프가 존재한다: 적대적 학습은 표준 정확도를 약 10퍼센트포인트 정도 떨어뜨리지만 적대적 공격에 대한 강건성을 향상시킨다.
- 일관성 손실로 학습된 모델은 적대적 샘플에서 최다 활성 시각화의 모호성이 감소하며(예: VGG-16-Adv는 실제 입력과 적대적 입력에 대해 더 비슷한 개념을 보임)
- 제안된 지표가 뉴런-일관성 변화를 정량화하고 적대적 가이드 학습을 통해 해석 가능성을 높일 수 있음을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.