[论文解读] Making Tree Ensembles Interpretable
本文提出一种后处理方法,通过使用更简单、人类可读的模型来近似复杂且高维的决策区域,从而提升加法树模型(ATM)(如随机森林和梯度提升树)的可解释性。该方法利用最小化原始集成模型与具有少量区域的紧凑模型之间KL散度的EM算法,仅用4条规则就在合成数据和真实世界数据上实现了高预测准确率,显著提升了可解释性,同时未牺牲性能。
Tree ensembles, such as random forest and boosted trees, are renowned for their high prediction performance, whereas their interpretability is critically limited. In this paper, we propose a post processing method that improves the model interpretability of tree ensembles. After learning a complex tree ensembles in a standard way, we approximate it by a simpler model that is interpretable for human. To obtain the simpler model, we derive the EM algorithm minimizing the KL divergence from the complex ensemble. A synthetic experiment showed that a complicated tree ensemble was approximated reasonably as interpretable.
研究动机与目标
- 解决随机森林和提升树等树集成模型中高预测性能与可解释性差之间的关键权衡问题。
- 通过将决策区域数量减少到少量、可管理的集合(例如,<10个),实现对复杂树集成模型的人类可理解性。
- 开发一种后处理方法,在保持预测准确率的同时,从训练好的ATM生成可解释的、基于规则的模型。
- 提供一种统一的方法,适用于分类和回归ATM,避免对输出进行离散化处理。
提出的方法
- 将ATM表述为概率性专家混合模型,使其可重新解释为生成模型。
- 定义两个模型:模型P(原始复杂ATM)和模型I(具有K个区域的简化、可解释模型)。
- 使用EM算法最小化模型P与模型I之间的KL散度,以学习模型I的参数。
- 利用EM算法迭代优化模型I中的区域边界和预测值,确保其与原始集成模型保持一致。
- 将区域数量K固定为用户定义的超参数,从而实现对可解释性与复杂度的控制。
- 将该方法应用于合成数据和真实世界回归数据(包括能源效率数据集),以评估性能与可解释性。
实验结果
研究问题
- RQ1能否用少量决策区域的简单、可解释模型有效近似复杂树集成模型?
- RQ2如何在不显著降低预测性能的情况下提升加法树模型的可解释性?
- RQ3能否开发一种统一方法,无需输出离散化即可同时处理分类和回归ATM?
- RQ4基于EM的近似方法是否能通过最小化KL散度有效保持准确性,同时降低模型复杂度?
主要发现
- 在合成数据上,该方法仅用4条可解释规则成功恢复了基于XOR的真实数据结构,与底层数据模式完全匹配。
- 在能源效率数据集上,该方法提取出4条直观且符合物理直觉的规则——例如,当相对紧凑性较低时,加热负荷也较低。
- 在能源效率数据集上,该方法仅用4条规则即达到20.19的测试误差,优于需要37条规则且误差高达168.19的决策树。
- 在合成数据上,该方法使用4条规则达到0.02的测试误差,而使用15条规则的决策树误差为0.01,表明该方法在远少规则下仍具备强大的预测性能。
- 该方法显著降低了模型复杂度,同时保持了具有竞争力的准确性,使其在可解释性优先的应用中比标准决策树更具优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。