Skip to main content
QUICK REVIEW

[논문 리뷰] InterpretML: A Unified Framework for Machine Learning Interpretability

Harsha Nori, Samuel Jenkins|arXiv (Cornell University)|2019. 09. 19.
Explainable Artificial Intelligence (XAI)참고 문헌 16인용 수 316
한 줄 요약

InterpretML은 글래스박스 모델과 블랙박스 설명 도구를 결합하고 Explainable Boosting Machine (EBM)을 도입하여 기계 학습 해석 가능성에 대한 통합 Python 프레임워크를 제공합니다.

ABSTRACT

InterpretML is an open-source Python package which exposes machine learning interpretability algorithms to practitioners and researchers. InterpretML exposes two types of interpretability - glassbox models, which are machine learning models designed for interpretability (ex: linear models, rule lists, generalized additive models), and blackbox explainability techniques for explaining existing systems (ex: Partial Dependence, LIME). The package enables practitioners to easily compare interpretability algorithms by exposing multiple methods under a unified API, and by having a built-in, extensible visualization platform. InterpretML also includes the first implementation of the Explainable Boosting Machine, a powerful, interpretable, glassbox model that can be as accurate as many blackbox models. The MIT licensed source code can be downloaded from github.com/microsoft/interpret.

연구 동기 및 목표

  • 글래스박스 및 블랙박스 접근 방식 간의 해석 가능 알고리즘을 비교하기 위한 통합 API를 제공한다.
  • 일관된 인터페이스를 통해 해석 가능한 모델(글래스박스)과 모델 비의존적 설명(블랙박스)을 노출한다.
  • 시각화 및 대시보드 기반 비교를 통해 모델 해석 가능성 판단을 돕는다.
  • 정확하고 이해하기 쉬운 모델로서 Explainable Boosting Machine (EBM)를 도입 및 평가한다.

제안 방법

  • 해석 가능 알고리즘 간 비교를 용이하게 하기 위해 scikit-learn 스타일 API를 채택한다.
  • 두 가지 해석 가능 형식: 해석 가능성이 본질적으로 높은 글래스박스 모델과 파이프라인에 대한 블랙박스 설명을 제시한다.
  • 설명 가능한 가산 모델로서 특성 함수와 선택적 쌍 상호 작용을 학습하는 Explainable Boosting Machine (EBM)을 도입한다.
  • 다중공선성 완화를 위해 작은 학습률로 특성에 대해 순환식 부스팅을 사용하고 추가적 해석 가능성을 보장한다.
  • EBM은 C++/Python으로 구현되었고 작업 가능한 병렬화는 joblib를 통해 확장 가능하며 빠른 예측을 제공한다.
  • 개별 예측을 해석하기 위한 특성 기여 f_j(x_j) 시각화를 제공한다.

실험 결과

연구 질문

  • RQ1통합 API로 해석 가능 알고리즘을 노출하여 비교를 용이하게 할 수 있는가?
  • RQ2매우 해석 가능성이 높은 글래스박스 모델(EBM)이 최첨단 블랙박스 방법과 경쟁력 있는 예측 성능을 달성할 수 있는가?
  • RQ3다양한 데이터 세트에서 EBMs의 학습/예측과 다른 모델의 계산 특성은 어떠한가?
  • RQ4특성 기여도 및 상호 작용을 이해하기 위한 시각화 및 상호 작용 도구는 얼마나 효과적인가?

주요 결과

모델heart-disease (303, 13)breast-cancer (569, 30)telecom-churn (7043, 19)adult-income (32561, 14)credit-fraud (284807, 30)
EBM0.9160.9950.8510.9280.975
LightGBM0.8640.9920.8350.9280.685
Logistic Regression0.8950.9950.8040.9070.979
Random Forest0.890.9920.8240.9030.95
XGBoost0.870.9950.850.9220.981
  • EBM은 Random Forest 및 XGBoost와 같은 최첨단 모델에 비견되는 예측 성능을 여러 데이터 세트에서 자주 달성한다.
  • EBM은 가산 구조와 간단한 항 조회를 통해 빠른 예측 및 낮은 메모리 사용을 제공한다.
  • EBM은 해석 가능성을 유지하면서도 정확도를 높이기 위해 쌍 상호 작용의 자동 포함을 지원한다.
  • 프레임워크는 여러 해석 가능 알고리즘의 쉬운 비교와 인터랙티브한 시각화 및 대시보드를 포함한다.
  • EBM 기본 매개변수는 속도에 초점을 두고 있으며, 최상의 정확성과 해석 가능성을 위한 권장 레퍼런스 매개변수를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.