QUICK REVIEW

[논문 리뷰] When Explanations Lie: Why Many Modified BP Attributions Fail

Leon Sixt, Maximilian Granz|arXiv (Cornell University)|2019. 12. 20.

Explainable Artificial Intelligence (XAI)참고 문헌 47인용 수 42

한 줄 요약

이 논문은 대부분의 수정된 역전파 기여도 방법들이 층 간에 단일 지배 방향(rank-1)으로 수렴하여 설명이 후층 파라미터와의 의존성을 크게 줄이고, DeepLIFT가 주목할 예외로 남아있으며; 또한 이 행동을 진단하기 위한 코사인 유사도 수렴(CSC) 지표를 도입한다.

ABSTRACT

Attribution methods aim to explain a neural network's prediction by highlighting the most relevant image areas. A popular approach is to backpropagate (BP) a custom relevance score using modified rules, rather than the gradient. We analyze an extensive set of modified BP methods: Deep Taylor Decomposition, Layer-wise Relevance Propagation (LRP), Excitation BP, PatternAttribution, DeepLIFT, Deconv, RectGrad, and Guided BP. We find empirically that the explanations of all mentioned methods, except for DeepLIFT, are independent of the parameters of later layers. We provide theoretical insights for this surprising behavior and also analyze why DeepLIFT does not suffer from this limitation. Empirically, we measure how information of later layers is ignored by using our new metric, cosine similarity convergence (CSC). The paper provides a framework to assess the faithfulness of new and existing modified BP methods theoretically and empirically. For code see: https://github.com/berleon/when-explanations-lie

연구 동기 및 목표

일반적인 아키텍처(VGG-16, ResNet-50)와 데이터셋(CIFAR-10, ImageNet) 전반에 걸친 수정된 BP 기여도 방법의 신뢰성(정직성)을 평가한다.
수많은 수정된 BP 규칙이 왜 정상성 검사(sanity checks)와 클래스 감도 테스트를 실패하는지 설명한다.
역전파 기반 설명에서 rank-1 행렬로의 수렴을 진단하기 위한 이론적 및 경험적 도구를 제공한다.
언제 그리고 어떻게 수정된 BP 방법을 신뢰하거나 개정이 필요한지에 대한 지침을 제공한다.

제안 방법

가정 하에 z+ 규칙이 여러 층에 걸친 비음수 행렬 곱을 산출하고 이는 rank-1 행렬로 수렴한다는 이론적 분석.
코사인 유사도 수렴(CSC) 지표의 정의 및 이를 사용하여 층 간 관련 벡터의 수렴을 정량화한다.
무작위 로짓 및 파라미터 무작위화 정상성 검사(RSAN?)를 사용하여 네트워크(VGG-16, ResNet-50)와 데이터셋(CIFAR-10, ImageNet)에서 경험적 평가를 수행했다.
여러 수정된 BP 방법들(LRP 변형, Deep Taylor Decomposition, PatternAttribution, DeepLIFT, Guided BP, Deconv, RectGrad)의 비교 및 DeepLIFT를 예외로 식별.
수렴 동작을 이해하기 위해 PatternAttribution과 PatternNet을 특이값 비율로 분석.
양의 체인과 음의 체인을 분리하는 DeepLIFT 제거 변형을 도입하여 수렴 특성을 보여준다.

실험 결과

연구 질문

RQ1수정된 BP 기여도 방법이 후층 파라미터에 의존하는 설명을 생성하는가?
RQ2이 방법들은 일반적으로 층 간에 단일 지배 방향으로 수렴하여 클래스 민감도를 감소시키는가?
RQ3왜 DeepLIFT는 rank-1 수렴을 피하는가, 그리고 이로부터 얻은 통찰이 다른 방법들을 개선하는 데 도움이 될 수 있는가?
RQ4CSC와 같은 지표가 수렴 및 기여도 방법의 신뢰성을 신뢰성 있게 진단할 수 있는가?

주요 결과

대부분의 수정된 BP 방법들(DeepLIFT 제외)은 rank-1 행렬로 수렴하여 설명이 후층에 무감각해진다.
z+ 규칙 및 관련 방법들은 명시된 조건 하에서 비음수 행렬 체인의 곱이 rank-1 행렬로 수렴한다.
CSC는 층 간 기여도 체인에서 후층의 정보가 어떻게 손실되는지를 효과적으로 추적한다.
DeepLIFT는 동일한 수렴을 따르지 않으며, 양의/음의 분리 규칙 하에서 rank-1 붕괴를 피할 수 있다.
음의 관련성이 여러 수렴 방법에서 결여된 중요한 요인으로 확인되어 클래스 민감도를 개선할 수 있는 가능성을 시사한다.
다수의 아키텍처 전반에 걸쳐, 마지막 층 파라미터를 변경하거나 로짓이 무작위화될 때 수렴하는 방법들은 주의도(saliency maps)가 매우 유사하게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.