[논문 리뷰] Local Explanation Methods for Deep Neural Networks Lack Sensitivity to Parameter Values
로컬 설명 방법이 모델의 파라미터 값을 실제로 반영하는지 여부를 무작위로 초기화된 네트워크의 설명과 학습된 네트워크의 설명을 비교하여 조사한 결과, 무작위화에도 불구하고 설명이 대체로 유사하다는 것을 발견했다.
Explaining the output of a complicated machine learning model like a deep neural network (DNN) is a central challenge in machine learning. Several proposed local explanation methods address this issue by identifying what dimensions of a single input are most responsible for a DNN's output. The goal of this work is to assess the sensitivity of local explanations to DNN parameter values. Somewhat surprisingly, we find that DNNs with randomly-initialized weights produce explanations that are both visually and quantitatively similar to those produced by DNNs with learned weights. Our conjecture is that this phenomenon occurs because these explanations are dominated by the lower level features of a DNN, and that a DNN's architecture provides a strong prior which significantly affects the representations learned at these lower layers. NOTE: This work is now subsumed by our recent manuscript, Sanity Checks for Saliency Maps (to appear NIPS 2018), where we expand on findings and address concerns raised in Sundararajan et. al. (2018).
연구 동기 및 목표
- DNN의 실제 파라미터 값에 로컬 설명이 얼마나 충실한지 평가한다.
- 네트워크 가중치가 무작위로 재초기화될 때 설명이 크게 달라지는지 여부를 판단한다.
- 로컬 설명이 저수준 입력 특징 및 아키텍처 편향에 의해 지배되는지 조사한다.
- 설명 방법에 대한 네트워크 아키텍처와 파라미터 값의 영향력을 탐구한다.
제안 방법
- Gradient, Integrated Gradients, Guided Backpropagation, Grad-CAM, Guided Grad-CAM, SmoothGrad, VarGrad를 포함한 여러 로컬 설명 방법을 조사하고 구현한다.
- 상위 층에서부터 처음 층까지 가중치를 재초기화하여 연쇄적으로 네트워크를 무작위화하고 설명의 유사성을 측정한다.
- 각 층을 독립적으로 재초기화하고 설명의 유사성을 측정한다.
- 고정된 이미지 세트에서 Spearman 순위 상관계수를 사용하여 설명 간 유사성을 정량화한다.
- 아키텍처(Inception v3 on ImageNet, CNN on MNIST, MLP on MNIST) 및 데이터셋 전반에 걸친 결과를 분석한다.
실험 결과
연구 질문
- RQ1무작위 가중치를 가진 DNN이 생성한 로컬 설명이 학습된 가중치를 가진 경우의 설명과 닮았는가?
- RQ2무작위 초기화에서도 보존되는 저수준 특징에 의해 로컬 설명이 지배되는가?
- RQ3네트워크 블록을 점진적으로 무작위화하는 것이 방법들 간 설명의 안정성에 어떻게 영향을 주는가?
- RQ4아키텍처가 파라미터 값과 무관하게 설명을 지배하는 강한 사전 정보를 제공하는가?
주요 결과
- 무작위로 초기화된 가중치를 가진 DNN은 시각적으로나 정량적으로 학습된 가중치를 가진 모델의 설명과 유사하게 나타난다.
- 설명은 저수준 입력 특징과 아키텍처 편향의 지배로 무작위 초기화에 불변하는 경향이 있다.
- Guided Backpropagation 및 Guided Grad-CAM은 네트워크 저하에도 설명에 거의 변화가 보이지 않는다.
- 입력-출력 그래디언트 설명은 무작위화가 하위 계층에 도달할 때 가장 크게 변한다.
- 결과는 ImageNet의 Inception v3와 MNIST의 CNN/MLP 모델에서 모두 일관된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.