QUICK REVIEW

[논문 리뷰] The (Un)reliability of saliency methods

Pieter-Jan Kindermans, Sara Hooker|arXiv (Cornell University)|2017. 11. 02.

Explainable Artificial Intelligence (XAI)인용 수 163

한 줄 요약

논문은 다수의 saliency 방법이 입력 불변성을 만족하지 못한다는 것을 보여준다: 간단한 입력 이동으로도 모델에 영향을 주지 않아도 기여도가 바뀔 수 있으며, 일부 참조점 방법(예: PatternAttribution)만이 특정 변환에서 불변할 수 있다.

ABSTRACT

Saliency methods aim to explain the predictions of deep neural networks. These methods lack reliability when the explanation is sensitive to factors that do not contribute to the model prediction. We use a simple and common pre-processing step ---adding a constant shift to the input data--- to show that a transformation with no effect on the model can cause numerous methods to incorrectly attribute. In order to guarantee reliability, we posit that methods should fulfill input invariance, the requirement that a saliency method mirror the sensitivity of the model with respect to transformations of the input. We show, through several examples, that saliency methods that do not satisfy input invariance result in misleading attribution.

연구 동기 및 목표

신뢰할 수한 설명을 위한 필수 요소로 입력 불변성을 정의하여 saliency 방법의 신뢰성을 촉진한다.
상수 입력 이동이 동일한 모델 예측에도 불구하고 기여도에 변화를 일으킬 수 있음을 시연한다.
다양한 saliency 범주(그라디언트, 시그널 방법, 어트리뷰션 방법)가 입력 이동 하에서 어떻게 동작하는지 평가한다.
불변성을 달성하는 데 있어 참조점과 데이터 정규화의 역할을 강조한다.

제안 방법

입력 불변성을 입력 변환에 대한 모델의 민감성과 동일하게 정의한다.
MNIST로 실험하여 일정한 이동과 관련된 입력 쌍에서 다양한 방법의 saliency 히트맵을 비교한다.
다양한 참조 하에서 입력 불변성에 대해 gradient, signal, attribution 방법(GI, IG, DTD)을 평가한다.
제로, 검은 이미지, PA 기준, LRP 등 서로 다른 참조점이 어트리뷰션 불변성에 어떤 영향을 미치는지 분석한다.
데이터 정규화가 일부 방법의 입력 불변성 만족에 어떻게 도움이 되는지 보여준다.

실험 결과

연구 질문

RQ1일반적인 saliency 방법이 상수 이동과 같은 간단한 입력 변환에서 입력 불변성을 만족하는가?
RQ2그라디언트, 신호 기반, 어트리뷰션 기반 방법은 입력 불변성 측면에서 어떻게 비교되는가?
RQ3Integrated Gradients와 Deep Taylor Decomposition 같은 어트리뷰션 방법의 신뢰성에 대한 참조점 선택의 영향은 무엇인가?
RQ4데이터 정규화가 saliency 방법의 입력 불변성 실패를 완화할 수 있는가?

주요 결과

다수의 saliency 방법은 입력이 상수 벡터로 이동될 때 입력 불변성을 만족하지 못하고, 예측은 바뀌지 않아도 기여도가 달라진다.
그라디언트 및 시그널 방법(원시 그라디언트, PatternNet, Guided Backprop)을 동일 가중치를 가진 네트워크를 비교할 때 불변일 수 있지만, 어트리뷰션 방법은 참조점에 따라 실패할 수 있다.
Gradient times input은 평균 이동에 민감하며 입력 불변성을 만족하지 않는다.
Integrated Gradients와 Deep Taylor Decomposition은 선택된 참조점에 의존하며 특정 참조점과 변환에서만 불변이 달성된다.
PatternAttribution은 데이터 공분산을 포함하기 때문에 제시된 이동에서 일관되게 입력 불변성을 만족한다.
SmoothGrad는 기본 방법의 민감도를 상속하며 일부 참조점에서 불변성을 실패할 수 있지만 PA나 검은 이미지 참조에서 불변일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.