Skip to main content
QUICK REVIEW

[논문 리뷰] Model Agnostic Supervised Local Explanations

Gregory Plumb, Denali Molitor|arXiv (Cornell University)|2018. 07. 09.
Fault Detection and Control Systems인용 수 114
한 줄 요약

MAPLE은 감독된 이웃과 지역 선형 모델링을 결합하여 faithful self-explanations를 제공하면서 임의의 숲(Random Forests) 및 GBRT와 유사한 정확도를 유지하고, LIME보다 여러 데이터셋에서 우수한 블랙박스 해설 기능을 수행할 수 있습니다. 또한 지역 학습 분포를 통해 글로벌 패턴을 감지합니다.

ABSTRACT

Model interpretability is an increasingly important component of practical machine learning. Some of the most common forms of interpretability systems are example-based, local, and global explanations. One of the main challenges in interpretability is designing explanation systems that can capture aspects of each of these explanation types, in order to develop a more thorough understanding of the model. We address this challenge in a novel model called MAPLE that uses local linear modeling techniques along with a dual interpretation of random forests (both as a supervised neighborhood approach and as a feature selection method). MAPLE has two fundamental advantages over existing interpretability systems. First, while it is effective as a black-box explanation system, MAPLE itself is a highly accurate predictive model that provides faithful self explanations, and thus sidesteps the typical accuracy-interpretability trade-off. Specifically, we demonstrate, on several UCI datasets, that MAPLE is at least as accurate as random forests and that it produces more faithful local explanations than LIME, a popular interpretability system. Second, MAPLE provides both example-based and local explanations and can detect global patterns, which allows it to diagnose limitations in its local explanations.

연구 동기 및 목표

  • 예시 기반, 로컬 및 글로벌 설명에 걸쳐 해석 가능성과 높은 예측 정확도를 연결하려는 동기 부여.
  • faithful local explanations를 얻기 위해 감독된 이웃 및 특징 선택을 사용하는 MAPLE 개발.
  • MAPLE의 예측 정확도를 기준 모델들과 비교하고 블랙박스 해설기로서의 효과를 입증.
  • MAPLE의 로컬 학습 분포를 통해 글로벌 패턴을 드러내고 본 exemplar 설명을 안내하는 방법.

제안 방법

  • SILO 스타일의 감독된 이웃에서 Eq. 2를 사용하여 로컬 학습 분포 가중치를 정의합니다.
  • DSTump으로 선택된 상위 d 특징을 사용한 로컬 가중 선형 회귀를 수행합니다( Eq. 5 ).
  • 정렬된 특징 점수에 대한 그리드화된 순방향 선택에서 검증 정확도를 통해 d를 선택합니다.
  • 로컬 분포 및 특징 점수에 대한 로컬 분포를 위해 MAPLE을 그래디언트 부스팅 회귀 트리로 확장하는 것을 선택적으로 허용합니다.
  • 로컬 선형 모델 계수의 검사와 학습 분포 기반 진단을 통해 설명을 제공합니다.
  • UCI 데이터셋 및 블랙박스 설정에서 MAPLE을 RF, GBRT, SILO, LIME과 비교합니다.

실험 결과

연구 질문

  • RQ1MAPLE이 표준 트리 앙상블과 비교해 예측 정확도를 유지하거나 향상시키면서 faithful 로컬 설명을 제공할 수 있습니까?
  • RQ2MAPLE의 설명이 지점에서 모델의 동작을 충실하게 반영하는가, 그리고 인과 지표 측면에서 LIME과 어떻게 비교됩니까?
  • RQ3MAPLE의 로컬 학습 분포를 통해 글로벌 패턴을 감지하고 새로운 지점에 대한 exemplar 설명 선택에 도움을 줄 수 있습니까?
  • RQ4MAPLE가 LIME과 비교하여 별도의 예측 모델을 설명할 때 블랙박스 해설자로서의 성능은 어떠합니까?
  • RQ5다양한 데이터셋과 설정에서 MAPLE의 특징 선택 및 로컬성의 실용적 특성은 어떠합니까?

주요 결과

데이터셋LMRFSILO + RFMAPLE + RFGBRTSILO + GBRTMAPLE + GBRT
Autompgs0.4460.41640.37840.3810.3920.37450.377
Communities0.7810.7450.7240.6880.7090.7510.712
Crimes0.3271.0120.5310.3310.9680.4930.295
Day00.2041.7e-056e-060.1041.3e-054e-06
Happiness0.0010.6440.0010.0010.3440.0010.001
Housing0.560.4860.4090.4190.3950.3960.404
Music0.9350.7420.8810.7640.6580.9010.849
Winequality-red0.8140.780.7790.7780.7830.7860.779
DatasetLIMEMAPLE
Autompgs0.1780.042
Communities0.4090.130
Crimes0.2760.047
Day0.0340
Happiness0.053e-05
Housing0.2380.07
Music0.1890.181
Winequality-red0.1490.06
Datasetnpd - RFd - GBRT
Autompgs39286.445.94
Communities199310354.1450.12
Crimes221410320.3421.62
Day731152.463.02
Happiness57887.747.46
Housing506129.9810.06
Music1059705.5614.46
Winequality-red1599127.16.88
Datasetnpd
Autompgs0.042--6.44
Communities0.130--54.14
Crimes0.047--20.34
Day0--2.46
Happiness0.00003--7.74
Housing0.07--9.98
Music0.181--5.56
Winequality-red0.06--7.1
  • MAPLE은 일반적으로 랜덤 포레스트 및 GBRT만큼이나 정확하거나 더 낫고, 다수의 데이터셋에서 SILO 기반 변형보다 우수한 경우가 많습니다(표 1의 결과).
  • MAPLE의 로컬 선형 설명은 예측에 대한 faithful한 설명이며, 대부분의 데이터셋에서 인과 지표에서 LIME보다 우수합니다(표 2).
  • MAPLE은 SVR 예측에 대한 블랙박스 해설기로 사용될 때 LIME과 비교하여 더 우수한 인과 지표 설명을 제공합니다(표 3).
  • MAPLE은 로컬 학습 분포를 검사함으로써 글로벌 패턴을 드러낼 수 있으며, 글로벌 패턴이 로컬 설명에 영향을 미치는 시점을 나타낼 수 있습니다( Sec. 4.1 및 Fig. 2).
  • MAPLE은 적용 가능성을 결정하기 위해 로컬 학습 분포 가능도를 평가하여 소수의 exemplar 설명을 제공합니다( Sec. 4.2).
  • MAPLE은 일반적으로 기준 방법과 비교 가능한 수의 활성 특징을 사용하는 편이고, 데이터셋별로 상세한 d 값이 보고됩니다(표 4).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.