Skip to main content
QUICK REVIEW

[논문 리뷰] Interpreting Blackbox Models via Model Extraction

Osbert Bastani, Carolyn Kim|arXiv (Cornell University)|2017. 05. 23.
Explainable Artificial Intelligence (XAI)참고 문헌 39인용 수 131
한 줄 요약

요약: 이 논문은 데이터를 적극 샘플링하여 블랙박스 모델과 근접하게 해석 가능한 전역 의사결정 트리를 추출하는 방법을 제시하고, 기저 baselines에 대한 충실도와 해석 가능성을 평가하며 추출된 트리에서 실무자 인사이트를 보여준다.

ABSTRACT

Interpretability has become incredibly important as machine learning is increasingly used to inform consequential decisions. We propose to construct global explanations of complex, blackbox models in the form of a decision tree approximating the original model---as long as the decision tree is a good approximation, then it mirrors the computation performed by the blackbox model. We devise a novel algorithm for extracting decision tree explanations that actively samples new training points to avoid overfitting. We evaluate our algorithm on a random forest to predict diabetes risk and a learned controller for cart-pole. Compared to several baselines, our decision trees are both substantially more accurate and equally or more interpretable based on a user study. Finally, we describe several insights provided by our interpretations, including a causal issue validated by a physician.

연구 동기 및 목표

  • 해석 가능한 전역 설명을 지역적 설명이나 완전한 해석 가능 모델의 대안으로 제시한다.
  • 과적합을 피하기 위해 데이터를 적극 샘플링하는 블랙박스-에서-의사결트리 추출 알고리즘을 제안한다.
  • 추출된 의사결정 트리가 다 task에서 블랙박스 모델을 밀접하게 근사하고 사용자 연구에서 동등하거나 더 해석 가능함을 보여준다.
  • 해석에서 실무자 검증된 인과관계 관찰 및 공급자 의존적 공변량 변화 등 실용적 통찰을 시연한다.

제안 방법

  • 블랙박스 함수 f를 근사하기 위한 축 정렬( axis-aligned) 의사결정 트리 모델 추출.
  • Active sampling: 현재 노드의 실행 가능한 영역 내에서 추정 입력 분포 P로 x를 반복적으로 샘플링하여 f(x)로 표본화한다.
  • EM으로 적합된 축 정렬 가우시안의 혼합으로 입력 분포 P를 추정한다.
  • 무한 데이터로서의 정확한 탐욕적 트리 구성을 목표로 삼고, 각 분할에서 n 샘플로 근사화하여 유한 추출기를 형성한다.
  • 분할 선택은 P 하의 조건부 레이블 분포를 기반으로 한 Gini-impurity 기반 이득 G(i,t)를 사용하며, 잎 레이블은 C_N 및 그 부분 합의 다수결 확률로 선택한다.
  • C (x_i in [s_i, t_i]) 제약을 처리하고 C에 주어진 p_P에서의 샘플링을 가능하게 하는 샘플링 및 가지치기 규칙을 제공한다.
  • n → ∞일 때 추출 트리 Ť가 정확한 탐욕적 트리 T*에 수렴하는 일관성 증명(충분한 샘플에서 ε, δ-정확)

실험 결과

연구 질문

  • RQ1복잡한 블랙박스 모델을 충실하게 근사하는 전역의 해석 가능한 모델(의사결정 트리)이 실제로 가능할까?
  • RQ2활성 샘플링이 베이스라인 추출 방법 대비 충실도 증가 및 과적합 감소를 가능하게 하는가?
  • RQ3추출된 의사결정 트리들이 사용자 연구에서 제시된 바와 같이 경쟁 해설(룰 리스트, 의사결정 집합)보다 해석 가능하거나 더 해석 가능한가?
  • RQ4실제 데이터셋에 적용했을 때 추출된 트리로부터 어떤 인사이트(비인과적이거나 공급자 의존적 효과 포함)가 도출될 수 있는가?
  • RQ5추출된 설명이 대체 해석 방법으로 쉽게 포착되지 않는 모델의 동작이나 편향을 드러내는가?

주요 결과

DatasetTask# FeaturesOutcomes# Training# TestBlackbox ModelBlackbox Performance
diabetes riskclassification384{high risk, low risk}404174random forestF1 = 0.24
cart-pole (Barto et al. 1983)reinforcement learning4{left, right}100100control policyreward = 200.0
  • 제안된 활성 샘플링 트리 추출은 벤치마크에서 CART 및 Born Again Trees보다 블랙박스 모델에 대한 충실도가 더 높다.
  • 방법으로 추출된 의사결정 트리는 ML 대학원생 대상의 사용자 연구에서 베이스라인보다 해석 가능성이 같거나 더 높다.
  • 당뇨 위험 및 카트-폴 타워에서 추출된 트리는 고충실도로 블랙박스 모델의 의사결정을 정확히 반영하면서 하위 인구집단 효과 및 비인과적 패턴 가능성을 검사 가능하게 한다.
  • 이 접근법은 당뇨 위험 모델에서 공변량-변이 및 공급자 특이 차이와 카트-폴 정책에서의 번역-불변성과 반사 편향을 드러내어 실행 가능한 진단 인사이트를 제공한다.
  • 샘플이 늘어날수록 안정성과 일관성 증가를 보이며 추출 간 노드 일관성 측면에서 Born Again Trees를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.