Skip to main content
QUICK REVIEW

[논문 리뷰] Benchmarking Attribution Methods with Relative Feature Importance

Mengjiao Yang, Been Kim|arXiv (Cornell University)|2019. 07. 23.
Explainable Artificial Intelligence (XAI)참고 문헌 30인용 수 86
한 줄 요약

이 논문은 알려진 상대 Feature 중요도를 사용하여 특징 기여도 방법을 정량적으로 평가하기 위한 프레임워크 BAM과, 가설적인 상대 중요도를 이용한 semi-natural 데이터셋 및 모델, 그리고 잘못된 긍정(false positives)을 탐지하기 위한 세 가지 지표를 도입합니다.

ABSTRACT

Interpretability is an important area of research for safe deployment of machine learning systems. One particular type of interpretability method attributes model decisions to input features. Despite active development, quantitative evaluation of feature attribution methods remains difficult due to the lack of ground truth: we do not know which input features are in fact important to a model. In this work, we propose a framework for Benchmarking Attribution Methods (BAM) with a priori knowledge of relative feature importance. BAM includes 1) a carefully crafted dataset and models trained with known relative feature importance and 2) three complementary metrics to quantitatively evaluate attribution methods by comparing feature attributions between pairs of models and pairs of inputs. Our evaluation on several widely-used attribution methods suggests that certain methods are more likely to produce false positive explanations---features that are incorrectly attributed as more important to model prediction. We open source our dataset, models, and metrics.

연구 동기 및 목표

  • 모델 간 및 입력 간의 알려진 상대 Feature 중요도를 사용하여 기여도 방법을 평가하기 위한 정량적 프레임워크를 제공한다.
  • 상대 중요도를 제어하는 객체를 씬에 붙여 넣어 semi-natural BAM 데이터셋을 생성한다.
  • 세 가지 보완 지표(MCS, IDR, IIR)를 개발하여 기여도 방법을 평가하고 잘못된 긍정을 식별한다.

제안 방법

  • MSCOCO 객체 픽셀을 MiniPlaces 씬 이미지에 붙여 BAM 데이터셋을 구성하고, 총 10개의 객체 클래스와 10개의 씬 클래스를 만들어 100k 이미지로 확립한다.
  • 공통 특징(CF)과 그 공통성 k를 정의하여 모델 및 입력 간의 상대 Feature 중요도를 제어한다.
  • 다른 라벨 세트에서 두 분류기 f_o와 f_s를 학습시켜 모델 의존적 특징 중요도(객체 대 씬)를 확립한다.
  • CF 세트 X_{o,s}^k에서 CF 상대 중요도를 k ∈ {0.1,...,1.0}로 조정하고 CF 제거의 영향을 측정한다.
  • BAM 조건에서 기여도를 비교하기 위한 세 가지 지표—모델 대비 점수(MCS), 입력 의존도 비율(IDR), 입력 독립성 비율(IIR)—을 제안한다.
  • 영역별 평균 기여도 g_c, 개념 기여도 G_c, 그리고 세 지표를 계산하는 방정식을 제공한다.

실험 결과

연구 질문

  • RQ1모델 간 상대 Feature 중요도가 알려진 상황에서 기여도 방법이 잘못된 긍정 측면에서 어떻게 다루어지는가?
  • RQ2특정 기여도 방법이 BAM 하에서 상대적으로 덜 관련된 특징에 대해 체계적으로 중요도를 잘못 할당하는가?
  • RQ3BAM 지표가 특정 작업 요건(예: 견고성, 낮은 잘못된 긍정)에 맞춰 기여도 방법을 선택하는 데 도움을 주는가?
  • RQ4CF 중요도가 모델과 입력에 따라 달라질 때 기여도 방법의 성능은 어떤가?
  • RQ5MCS와 실제 CF 제거에 대한 견고성 사이에 상관관계가 있는가?

주요 결과

  • 일부 기여도 방법은 잘못된 긍정에 더 취약하여 덜 관련된 특징의 중요도를 부당하게 높이는 경향이 있다.
  • GC(객체-중심)와 VG(그래디언트 기반)는 진정한 양성(실제 중요한 특징) 동작이 더 강한 경향이 있으며, TCAV는 특정 설정에서 모델 대비 점수에서 가장 높은 경향을 보인다.
  • MCS, IDR, IIR은 보완적인 통찰을 제공하며 지표에 따라 방법의 순위가 달라지므로 평가 기준에 따라 선택이 다르다.
  • VG(그래디언트 기반)는 IDR과 IIR에서 종종 잘 작동하여 더 복잡한扰동 기반 방법이 항상 우수하다는 관념에 도전한다.
  • IIR은 많은 방법이 입력의 기능적으로 무관한 섭동(예: 개 모양의 델타)에 높은 중요도를 부여하는 경향이 있어 특정 시각화 관행에 의문을 제기한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.