[论文解读] Predictive Multiplicity in Classification
本文在分类中定义预测性多样性,提出歧义性和不一致性度量,并开发整数量化工具以对线性分类器精确计算它们,揭示在再犯预测数据集中的显著多样性。
Prediction problems often admit competing models that perform almost equally well. This effect challenges key assumptions in machine learning when competing models assign conflicting predictions. In this paper, we define predictive multiplicity as the ability of a prediction problem to admit competing models with conflicting predictions. We introduce formal measures to evaluate the severity of predictive multiplicity and develop integer programming tools to compute them exactly for linear classification problems. We apply our tools to measure predictive multiplicity in recidivism prediction problems. Our results show that real-world datasets may admit competing models that assign wildly conflicting predictions, and motivate the need to measure and report predictive multiplicity in model development.
研究动机与目标
- 定义预测性多样性并阐明其在分类任务中的实际相关性。
- 引入正式度量(歧义性和不一致性)以量化多样性。
- 开发整数量化方法来对线性分类器精确计算这些度量。
- 在再犯预测数据集(如 COMPAS)上进行经验评估。
提出的方法
- 定义围绕基线分类器的 epsilon 级集合以捕捉近似最优模型。
- 在 epsilon 约束下建立 DiscMIP 以计算相对基线的最大分歧(不一致性)。
- 开发路径算法高效地在多个 epsilon 值之间计算不一致性。
- 建立 FlipMIP 以构造对特定数据点预测进行翻转的分类器以实现歧义。
- 使用混合整数规划求解器获得预测性多样性度量的精确或有界解。
实验结果
研究问题
- RQ1如何对二元分类正式定义预测性多样性?
- RQ2如何通过歧义性和不一致性量化多样性的严重程度?
- RQ3我们能否使用优化技术为线性分类器精确计算这些度量?
- RQ4在现实世界数据集(如再犯预测)中的预测性多样性程度是多少?
- RQ5多样性度量与基线模型准确性及部署决策有何关系?
主要发现
- 在同一数据上,近似等精度的竞争模型可能给出高度矛盾的预测。
- 在 ProPublica 的 COMPAS 数据集中,若竞争模型的准确度比最佳模型低 1%,就可能对超过 17% 的个体给出冲突性预测,且有 44% 的个体的预测会因模型选择而受影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。