[论文解读] Model Class Reliance: Variable Importance Measures for any Machine Learning Model Class, from the "Rashomon" Perspective
本文提出了模型类别依赖度(MCR),这是一种新颖的变量重要性框架,通过测量在交换特定协变量取值时预期损失的变化,量化任何模型类别、算法或单个模型对特定协变量的依赖程度。该方法提供了良好表现模型的概率边界和置信区域,支持跨不同模型类型的比较,并揭示了真实世界数据中的依赖模式,例如在使用布劳顿县数据的再犯预测模型中。
Variable importance (VI) tools are typically used to examine the inner workings of prediction models. However, many existing VI measures are not comparable across model types, can obscure implicit assumptions about the data generating distribution, or can give seemingly incoherent results when multiple prediction models fit the data well. In this paper we propose a framework of VI measures for describing how much any model class (e.g. all linear models of dimension p), any model-fitting algorithm (e.g. Ridge regression with fixed regularization parameter), or any individual prediction model (e.g. a single linear model with fixed coefficient vector), relies on covariate(s) of interest. The building block of our approach, Model Reliance (MR), compares a prediction model's expected loss with that model's expected loss on a pair of observations in which the value of the covariate of interest has been switched. Expanding on MR, we propose Model Class Reliance (MCR) as the upper and lower bounds on the degree to which any well-performing prediction model within a class may rely on a variable of interest, or set of variables of interest. Thus, MCR describes reliance on a variable while accounting for the fact that many prediction models, possibly of different parametric forms, may fit the data well. We give probabilistic bounds for MR and MCR, leveraging existing results for U-statistics. These bounds can be generalized to create finite-sample confidence regions for the best-performing models from any class. We also illustrate connections between MR, conditional causal effects, and linear regression coefficients. We outline a binary search procedure to compute estimates of MCR. We then apply MR & MCR in a public dataset of Broward County criminal records to study the reliance of recidivism prediction models on sex and race, with code available at https://github.com/aaronjfisher/mcr.
研究动机与目标
- 为解决不同模型类别(如线性模型、树基模型或神经网络)之间缺乏可比的变量重要性(VI)度量问题。
- 开发一种框架,可考虑某一类别内多个拟合良好的模型,避免对数据生成过程的隐含假设。
- 为类别中表现最佳的模型提供概率边界和有限样本置信区域,提升VI估计的可靠性。
- 将模型依赖度与条件因果效应及线性回归系数关联,增强可解释性。
- 通过二分查找过程实现MCR的实用估计,并将该方法应用于真实世界数据,如布劳顿县的再犯预测。
提出的方法
- 模型依赖度(MR)定义为模型在原始观测与协变量值被交换的配对观测上预测结果的预期损失之差。
- 模型类别依赖度(MCR)通过计算在指定模型类别内所有拟合良好模型的依赖度上下界,扩展了MR。
- 该方法利用U-统计量理论推导MR和MCR的概率边界,实现对最优模型的有限样本置信区域。
- 提出一种二分查找过程,通过在可能的模型参数或系数向量空间中搜索,高效估计MCR。
- 将该框架应用于布劳顿县刑事记录的公开数据集,分析在再犯预测模型中对性别和种族的依赖程度。
- 该方法已通过GitHub上的开源代码实现,促进可复现性与更广泛应用。
实验结果
研究问题
- RQ1如何在不同模型类别(如线性模型与随机森林)之间有意义地比较变量重要性?
- RQ2当多个模型对数据的拟合程度相当良好时,某一类别内的良好表现模型在多大程度上依赖于特定协变量(如种族或性别)?
- RQ3MCR能否为类别中表现最佳模型的真实依赖度提供可靠且有限样本的置信区域?
- RQ4在存在混淆或模型误设的情况下,模型依赖度与条件因果效应及线性回归系数之间有何关系?
- RQ5MCR在现实世界预测系统(如再犯风险评估工具)中揭示了关于公平性与可解释性的哪些洞见?
主要发现
- MCR为类别内所有拟合良好模型的变量依赖度提供了上下界,为单模型VI度量提供了一种稳健替代方案。
- 该框架支持在不同模型类别(如线性模型与树基模型)之间比较变量重要性,而无需假设共同的参数形式。
- 基于U-统计量理论推导出的概率边界,使得MCR估计可构建有限样本置信区域,提升了统计可靠性。
- 二分查找过程实现了MCR的高效估计,使该方法在高维设置下具备计算可行性。
- 在布劳顿县再犯数据集中,MCR揭示了在多个拟合良好的模型中,对性别和种族存在显著依赖,凸显潜在的公平性问题。
- 该方法通过将模型依赖度与条件因果效应关联,增强了可解释性,为超越标准VI度量的解释路径提供了可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。