Skip to main content
QUICK REVIEW

[논문 리뷰] Measurable Counterfactual Local Explanations for Any Classifier

Adam White, Artur d’Avila Garcez|arXiv (Cornell University)|2019. 08. 08.
Explainable Artificial Intelligence (XAI)참고 문헌 20인용 수 54
한 줄 요약

CLEAR는 b-counterfactuals와 측정된 충실도에 기반한 로컬 모델을 제시해 다섯 데이터셋에서 LIME보다 향상된 예측 설명을 제공합니다.

ABSTRACT

We propose a novel method for explaining the predictions of any classifier. In our approach, local explanations are expected to explain both the outcome of a prediction and how that prediction would change if 'things had been different'. Furthermore, we argue that satisfactory explanations cannot be dissociated from a notion and measure of fidelity, as advocated in the early days of neural networks' knowledge extraction. We introduce a definition of fidelity to the underlying classifier for local explanation models which is based on distances to a target decision boundary. A system called CLEAR: Counterfactual Local Explanations via Regression, is introduced and evaluated. CLEAR generates w-counterfactual explanations that state minimum changes necessary to flip a prediction's classification. CLEAR then builds local regression models, using the w-counterfactuals to measure and improve the fidelity of its regressions. By contrast, the popular LIME method, which also uses regression to generate local explanations, neither measures its own fidelity nor generates counterfactuals. CLEAR's regressions are found to have significantly higher fidelity than LIME's, averaging over 45% higher in this paper's four case studies.

연구 동기 및 목표

  • 임계 도메인에서의 예측에 대한 신뢰할 수 있는 설명을 제공하기 위해 counterfactuals와 충실도에 집중한다.
  • 로컬 설명이 기본 분류기에 대한 충실도를 정의하고 정량화한다.
  • CLEAR를 개발하여 b-counterfactuals를 생성하고 로컬 의사 결정 경계를 반영하는 회귀 모델을 구축한다.
  • CLEAR가 여러 데이터셋에서 LIME보다 더 높은 충실도를 달성함을 입증한다.

제안 방법

  • b-counterfactual 교란을 예측 클래스를 반전시키는 최소 특징 변화로 정의한다.
  • 관심 사례 주위에 라벨이 매겨진 합성 관찰치를 생성한다.
  • 의사결정 경계 이웃을 포괄하는 균형 잡힌 이웃을 구성한다.
  • 관측치를 통과하는(2차 항 및 상호작용 항을 포함할 수 있는) 로컬 회귀 모델을 적합시킨다.
  • 회귀를 사용하여 b-perturbations를 추정하고 실제 b-perturbations에 대한 충실도 오차를 계산한다.
  • 충실도를 향상시키기 위해 회귀 사양을 반복적으로 조정하고 선택적으로 가중된 b-counterfactuals를 추가한다.

실험 결과

연구 질문

  • RQ1회귀 기반의 로컬 모델에 기반한(counterfactual explanations)로 역추적 가능한 설명을 어떻게 생성할 수 있는가?
  • RQ2분류기에 대한 충실도 측정치가 로컬 설명의 신뢰성을 높일 수 있는가?
  • RQ3이웃에 b-counterfactuals를 포함하는 것이 LIME과 같은 기존 방법에 비해 로컬 설명의 충실도를 향상시키는가?
  • RQ4데이터 세트별로 충실도를 최대화하는 구성 선택(균형 이웃, 중심화, 2차/상호작용 항)은 무엇인가?

주요 결과

  • CLEAR는 다섯 데이터셋에서 LIME보다 충실도가 일관되게 높게 나타나 평균적으로 충실도가 40% 이상 더 높다.
  • 균형 이웃, x를 통한 중심화, 2차 및 상호작용 항 포함이 더 높은 충실도를 가져온다.
  • 이웃에 b-counterfactuals를 포함하면 충실도가 더 향상된다.
  • CLEAR의 충실도는 단순한 분류 정확도보다 더 엄격한 척도이며, LIME의 설명에서의 차이를 드러낸다.
  • 데이터셋마다 최적 구성이 다르다(예: 로지스틱 vs 다중 회귀 각 데이터셋별 차이).
  • CLEAR 프로토타입은 충실도와 해석 가능성의 균형을 맞추기 위한 가변적 복잡성을 가진 해석 가능한 보고서를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.