[论文解读] Interpreting Models via Single Tree Approximation
本文提出了一种单树近似(STA)方法,通过从模型预测中生成伪样本并构建模仿其行为的决策树,来解释随机森林等复杂机器学习模型。该方法利用基尼指数差异的假设检验来稳定分裂,即使在使用大量伪样本时,也能实现高预测准确性和结构一致性,实验结果基于模拟数据和真实抑郁筛查数据验证。
We propose a procedure to build a decision tree which approximates the performance of complex machine learning models. This single approximation tree can be used to interpret and simplify the predicting pattern of random forests (RFs) and other models. The use of a tree structure is particularly relevant in medical questionnaires where it enables an adaptive shortening of the questionnaire, reducing response burden. We study the asymptotic behavior of splits and introduce an improved splitting method designed to stabilize tree structure. Empirical studies on both simulation and real data sets illustrate that our method can simultaneously achieve high approximation power and stability.
研究动机与目标
- 解决随机森林等复杂模型中的可解释性-准确性权衡问题,这些模型虽然准确度高,但难以解释。
- 开发一种稳定且单一的决策树近似方法,以复制复杂模型的预测行为,同时简化决策路径。
- 通过控制伪样本随机采样引起的变异性,确保近似树的结构稳定性。
- 通过识别最小但影响重大的问题,实现在医疗环境中自适应的简短问卷,同时保持预测性能。
- 通过基于Oracle的学习方法,将模型解释的适用范围从随机森林扩展到任意黑箱预测器。
提出的方法
- 从原始模型的预测中生成大量伪样本,作为近似树的训练数据。
- 对候选分裂之间经验基尼指数差异进行假设检验,以判断某一分裂是否显著优于另一分裂。
- 通过控制检验的显著性水平α,稳定分裂决策,减少算法不同运行之间的变异性。
- 在树构建过程中递归地在每个节点应用该检验,以确保分裂选择的一致性和可靠性。
- 基于样本大小和显著性设置停止规则,以防止过拟合并确保基尼指数的稳定估计。
- 使用类似CART的算法,基于伪样本构建近似树,分裂选择由假设检验引导。
实验结果
研究问题
- RQ1能否构建一个单一决策树,以准确近似随机森林等复杂模型的预测结果?
- RQ2尽管伪样本采用随机采样,如何确保近似树结构的稳定性?
- RQ3在近似过程中,为实现基尼指数的可靠估计和稳定的分裂决策,需要多大的样本量?
- RQ4近似树在多大程度上可以减少医疗问卷中的应答负担,同时保持预测准确性?
- RQ5在基于Oracle的学习环境中,对基尼指数差异进行假设检验能否有效稳定树的构建?
主要发现
- 使用1,000,000个伪样本时,近似树实现了结构稳定性,100棵树中有92棵具有相同的前四层结构。
- 当近似树构建到第五层时,与原始随机森林在分类结果上的一致性达到90%。
- 随机森林与近似树在预测类别概率上的L¹-范数差异为0.1,表明具有很强的预测保真度。
- 当伪样本数量超过100,000后,准确率提升趋于平缓,表明100,000个样本已足够实现稳定性能。
- 显著性水平α = 0.1有效控制了分裂层面的稳定性,在Nps = 1,000,000时,全部100棵树的根节点和第二层分裂完全相同。
- 该方法成功将88道题的抑郁筛查问卷简化为4道题的自适应工具,与原始随机森林模型的一致性达到90%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。