QUICK REVIEW

[논문 리뷰] Making Tree Ensembles Interpretable

Satoshi Hara, Kohei Hayashi|arXiv (Cornell University)|2016. 06. 17.

Neural Networks and Applications참고 문헌 3인용 수 60

한 줄 요약

이 논문은 랜덤 포레스트와 기울기 부스팅 트리와 같은 추가 트리 모델(ATM)의 해석 가능성(interpretability)을 향상시키기 위해 후처리 방법을 제안한다. 복잡하고 고차원적인 결정 영역을 단순하고 인간이 읽을 수 있는 모델로 근사함으로써 이를 달성한다. 기존 앙상블과 단순 모델 간의 KL 발산을 최소화하는 EM 알고리즘을 사용하여, 단지 4개의 규칙만으로도 합성 및 실세계 데이터에서 높은 예측 정확도를 달성하며, 성능을 희생시키지 않고도 해석 가능성의 향상을 크게 이룬다.

ABSTRACT

Tree ensembles, such as random forest and boosted trees, are renowned for their high prediction performance, whereas their interpretability is critically limited. In this paper, we propose a post processing method that improves the model interpretability of tree ensembles. After learning a complex tree ensembles in a standard way, we approximate it by a simpler model that is interpretable for human. To obtain the simpler model, we derive the EM algorithm minimizing the KL divergence from the complex ensemble. A synthetic experiment showed that a complicated tree ensemble was approximated reasonably as interpretable.

연구 동기 및 목표

랜덤 포레스트와 부스팅 트리와 같은 트리 앙상블에서 높은 예측 성능와 낮은 해석 가능성 사이의 극복하기 어려운 갈등을 해결하기 위해.
복잡한 트리 앙상블을 이해할 수 있도록 결합된 결정 영역의 수를 소수의 관리 가능한 집합(예: <10)으로 줄이기 위해.
예측 정확도를 유지하면서도 훈련된 ATM에서 이해하기 쉬운 규칙 기반 모델을 생성하는 후행(post-hoc) 방법을 개발하기 위해.
분류 및 회귀 ATMs에 모두 적용 가능한 통합된 접근법을 제공하여 출력 이산화(discretization)가 필요 없도록 하기 위해.

제안 방법

ATM을 확률적 믹스처 오브 은닉자 모델로 재구성하여 생성 모델로 재해석할 수 있도록 한다.
두 모델을 정의한다: 모델 P(원래의 복잡한 ATM)와 모델 I(K개의 영역을 가진 단순화된 해석 가능한 모델).
EM 알고리즘을 사용하여 모델 P와 모델 I 간의 KL 발산을 최소화함으로써 모델 I의 매개변수를 학습한다.
EM 알고리즘을 사용하여 모델 I의 영역 경계와 예측 값을 반복적으로 최적화함으로써 원래 앙상블에 대한 충실도를 확보한다.
해석 가능성과 복잡성 간의 균형 조절을 위해 영역 수 K를 사용자 정의 하이퍼파rameter로 고정한다.
성능과 해석 가능성 평가를 위해 합성 및 실세계 회귀 데이터(에너지 효율성 데이터셋 포함)에 이 방법을 적용한다.

실험 결과

연구 질문

RQ1복잡한 트리 앙상블가 소수의 결정 영역을 가진 단순하고 해석 가능한 모델로 효과적으로 근사될 수 있는가?
RQ2예측 성능를 크게 떨어뜨리지 않고서도 추가 트리 모델의 해석 가능성을 어떻게 향상시킬 수 있는가?
RQ3분류 및 회귀 ATMs를 모두 다룰 수 있는 통합된 방법이 출력 이산화 없이 작동할 수 있는가?
RQ4KL 발산 최소화를 통한 EM 기반 근사 방법이 정확도를 유지하면서도 모델 복잡성을 줄이는 데 효과적인가?

주요 결과

합성 데이터에서 제안된 방법은 단지 4개의 이해하기 쉬운 규칙만으로 진짜 XOR 기반 데이터 구조를 성공적으로 복원하였으며, 기저 데이터 패턴을 정확히 반영하였다.
에너지 효율성 데이터셋에서, 방법은 물리적 직관과 일치하는 직관적인 4개의 규칙을 추출하였다. 예를 들어 상대적 밀도가 낮을수록 난방 부하가 낮아지는 경향이 있었다.
에너지 효율성 데이터셋에서, 단지 4개의 규칙만으로도 테스트 오차 20.19를 달성하였으며, 37개의 규칙가 필요한 결정 트리보다 훨씬 낮은 오차(168.19)를 기록하였다.
합성 데이터에서 제안된 방법은 4개의 규칙로 테스트 오차 0.02를 기록하였고, 15개의 규칙가 필요한 결정 트리의 0.01보다도 높은 예측 성능를 보였다.
모델 복잡성을 크게 줄였지만 경쟁적인 정확도를 유지함으로써, 기존의 결정 트리보다 해석 가능성 중심의 응용에 더 적합한 모델이 되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.