Skip to main content
QUICK REVIEW

[論文レビュー] Making Tree Ensembles Interpretable

Satoshi Hara, Kohei Hayashi|arXiv (Cornell University)|Jun 17, 2016
Neural Networks and Applications参考文献 3被引用数 60
ひとこと要約

本論文は、ランダムフォレストや勾配ブースティングツリーなどの加法的木モデル(ATM)の解釈可能性を向上させるための後処理手法を提案する。複雑で高次元な意思決定領域を、シンプルで人間が読みやすいモデルで近似することで実現する。元のアンサンブルと、少数の領域を持つコンactモデルとの間のKLダイバージェンスを最小化するEMアルゴリズムを用いることで、合成データおよび実世界のデータにおいて、わずか4つのルールで高い予測精度を達成し、性能を損なうことなく解釈可能性を著しく向上させた。

ABSTRACT

Tree ensembles, such as random forest and boosted trees, are renowned for their high prediction performance, whereas their interpretability is critically limited. In this paper, we propose a post processing method that improves the model interpretability of tree ensembles. After learning a complex tree ensembles in a standard way, we approximate it by a simpler model that is interpretable for human. To obtain the simpler model, we derive the EM algorithm minimizing the KL divergence from the complex ensemble. A synthetic experiment showed that a complicated tree ensemble was approximated reasonably as interpretable.

研究の動機と目的

  • ランダムフォレストやブースティングツリーなどのツリー・アンサンブルにおいて、高い予測性能と低い解釈可能性の間の重要なトレードオフを解消すること。
  • 意思決定領域の数を少数(例:10未満)に削減することで、複雑なツリー・アンサンブルの理解を可能にすること。
  • 訓練済みのATMから解釈可能なルールベースモデルを生成しつつ、予測精度を保持する後処理手法を開発すること。
  • 出力の離散化を必要とせず、分類および回帰の両方のATMに適用可能な統一的なアプローチを提供すること。

提案手法

  • ATMを確率的混合専門家モデルとして定式化し、生成モデルとして再解釈可能にする。
  • 2つのモデルを定義する:モデルP(元の複雑なATM)とモデルI(K個の領域を持つ簡素化された解釈可能なモデル)。
  • EMアルゴリズムを用いて、モデルPとモデルIの間のKLダイバージェンスを最小化し、モデルIのパラメータを学習する。
  • EMアルゴリズムを用いて、モデルIの領域境界と予測値を反復的に最適化し、元のアンサンブルへの忠実度を保証する。
  • 領域数Kをユーザーが定義するハイパーパrameterとして固定し、解釈可能性と複雑さのバランスを制御可能にする。
  • 性能と解釈可能性の評価のために、合成データおよび実世界の回帰データ(エネルギー効率データセットを含む)に本手法を適用する。

実験結果

リサーチクエスチョン

  • RQ1複雑なツリー・アンサンブルは、少数の意思決定領域を持つ単純で解釈可能なモデルで効果的に近似可能か?
  • RQ2予測性能を著しく低下させることなく、加法的木モデルの解釈可能性をどのように向上できるか?
  • RQ3出力の離散化を必要とせず、分類および回帰の両方のATMを扱える統一的な手法は可能か?
  • RQ4KLダイバージェンスの最小化に基づくEMベースの近似手法は、精度を保持しつつモデルの複雑さを低減するのに有効か?

主な発見

  • 合成データでは、本手法がわずか4つの解釈可能なルールを用いて、真のXORベースのデータ構造を正確に回復した。
  • エネルギー効率データセットでは、4つのルールが直感的で物理的直感と整合的であった(例:相対的コンact性が低いと暖房負荷が低くなる)。
  • エネルギー効率データセットでは、4つのルールでテスト誤差20.19を達成し、37個のルールを必要とする決定木(誤差168.19)を上回った。
  • 合成データでは、4つのルールでテスト誤差0.02を達成したが、15個のルールを必要とする決定木は0.01であった。これは、はるかに少ないルールで優れた予測性能を示した。
  • 本手法はモデルの複雑さを著しく低減しながらも、競争力のある精度を維持したため、標準の決定木よりも解釈可能性を重視する用途に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。