[论文解读] All Models are Wrong, but Many are Useful: Learning a Variable's Importance by Studying an Entire Class of Prediction Models Simultaneously
本文引入 Model Class Reliance (MCR) 和 Model Reliance (MR),用于量化在预定义类别中所有表现良好模型对一个协变量的使用程度,通过分析一整集合的近似最优模型来解决 Rashomon 效应,而不是只分析单个模型。
Variable importance (VI) tools describe how much covariates contribute to a prediction model's accuracy. However, important variables for one well-performing model (for example, a linear model $f(\mathbf{x})=\mathbf{x}^{T}β$ with a fixed coefficient vector $β$) may be unimportant for another model. In this paper, we propose model class reliance (MCR) as the range of VI values across all well-performing model in a prespecified class. Thus, MCR gives a more comprehensive description of importance by accounting for the fact that many prediction models, possibly of different parametric forms, may fit the data well. In the process of deriving MCR, we show several informative results for permutation-based VI estimates, based on the VI measures used in Random Forests. Specifically, we derive connections between permutation importance estimates for a single prediction model, U-statistics, conditional variable importance, conditional causal effects, and linear model coefficients. We then give probabilistic bounds for MCR, using a novel, generalizable technique. We apply MCR to a public data set of Broward County criminal records to study the reliance of recidivism prediction models on sex and race. In this application, MCR can be used to help inform VI for unknown, proprietary models.
研究动机与目标
- 激发 Rashomon 效应:多个拟合良好的模型在预测中可能依赖不同的协变量。
- 定义 MR,通过基于置换的损失切换方法来衡量单个模型在多大程度上依赖某个协变量。
- 将 MR 扩展为 MCR,即在预定义类别中所有表现良好模型的 MR 值范围。
- 开发有限样本界以及从数据估计 MCR 的实用计算方法。
- 将该框架应用于公开的刑事司法数据集,以评估在 COMPAS 分数中对种族、性别或其代理变量的依赖。
提出的方法
- 将 model class reliance (MCR) 定义为在一组近似最优预测变量集合的所有模型中,MR 值的范围。
- 为固定模型定义 MR,通过 X1 被打乱时的损失与原始损失之比。
- 将 MR 与 U-统计量连接起来,以建立无偏估计量及渐近性质。
- 通过一种通用优化程序提供经验性 MCR 估计,该程序产生包含模型类的凸包。
- 提供 (正则化) 线性模型和核方法的具体实现,并与加性模型及条件因果效应相关联。
- 讨论有限样本界,以及如何使用自助法来形成实用的置信区间。
实验结果
研究问题
- RQ1在仍然实现近乎最优的预测准确度的前提下,表现良好的模型对协变量 X1 的依赖程度有多大?
- RQ2如何总结 Rashomon 集中所有模型在变量重要性方面的变异性?
- RQ3MR 和 MCR 估计量的理论性质(无偏性、渐近性)是什么?
- RQ4在实际中,如何对常见模型类如线性和核方法计算 MR/MCR?
- RQ5MR/MCR 对专有预测模型如 COMPAS 中敏感属性(例如种族、性别)的作用揭示了什么?
主要发现
- MR 通过基于切换的损失来量化单个模型对 X1 的依赖程度,MR 越高表示对 X1 的依赖越大。
- MCR 将 MR 扩展为在预定义类别内所有表现良好模型的范围 [MCR_-, MCR_+],捕捉 Rashomon 效应。
- MR 估计量是无偏的,在标准条件下作为 U-统计量具有渐近正态性;经验性 MCR 界限提供有意义的有限样本保证。
- 一种通用优化程序产生一个凸包,在任何 epsilon(性能容忍度)下界定经验性 MCR。
- 对 Broward County 再犯率数据的应用表明,种族、性别以及这些变量的代理变量不一定是 COMPAS 分数中的主导预测因素,展示了 MCR 在审视专有模型方面的实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。