[论文解读] Iterative Orthogonal Feature Projection for Diagnosing Bias in Black-Box Models
本文提出迭代正交特征投影(IOFP),通过正交投影与性能变化检测,测量每个输入特征的预测依赖性,以诊断黑箱模型中的偏差。该方法无需访问模型内部结构即可实现可解释性与公平性审计,在真实世界信用额度模型中显示出较低的性别依赖性。
Predictive models are increasingly deployed for the purpose of determining access to services such as credit, insurance, and employment. Despite potential gains in productivity and efficiency, several potential problems have yet to be addressed, particularly the potential for unintentional discrimination. We present an iterative procedure, based on orthogonal projection of input attributes, for enabling interpretability of black-box predictive models. Through our iterative procedure, one can quantify the relative dependence of a black-box model on its input attributes.The relative significance of the inputs to a predictive model can then be used to assess the fairness (or discriminatory extent) of such a model.
研究动机与目标
- 为高风险决策(如信贷、保险和雇佣)中使用的黑箱预测模型提供可解释性。
- 开发一种通过量化模型对输入特征的相对依赖性来审计公平性的方法。
- 检测因依赖受保护属性(如性别、种族或宗教)而产生的非预期歧视。
- 提供一种可扩展的、基于查询的框架,适用于不可解释模型,且无需访问其内部结构。
- 支持监管机构和从业者识别驱动模型结果的关键特征,以实施针对性的公平性干预措施。
提出的方法
- 该方法使用迭代正交投影,将输入特征转换为与目标属性无关的形式。
- 对于每个特征,输入矩阵通过非线性变换(如对数、多项式、指数)进行扩展,以捕捉非线性依赖关系。
- 在每次变换前后测量黑箱模型的性能,并通过性能差异的绝对值(如MSE或准确率)量化特征的预测依赖性。
- 将性能变化用作每个输入特征的排名得分,以反映其对模型输出的相对重要性。
- 该框架假设可对黑箱模型进行迭代查询;若不可行,则训练一个代理模型以近似黑箱行为。
- 该算法在所有特征上迭代执行,以生成完整的输入依赖性排名。
实验结果
研究问题
- RQ1如何在不访问内部结构的情况下,量化黑箱模型对单个输入特征的相对依赖性?
- RQ2预测模型在多大程度上依赖于性别或种族等受保护属性进行决策?
- RQ3正交投影与性能变化检测是否能有效识别对模型预测贡献最大的特征?
- RQ4该方法在检测真实世界高风险模型(如信贷评分系统)中的偏差方面表现如何?
- RQ5当传统可解释性方法因模型复杂性而失效时,该方法是否可用于模型的公平性审计?
主要发现
- 迭代正交投影方法成功量化了黑箱模型对每个输入特征的预测依赖性,实现了无需访问模型的可解释性。
- 在某欧洲银行的真实世界信用额度模型中,该方法显示出对性别的依赖性始终较低,表明歧视性影响极小。
- 归一化排名显示,性别对信用额度决策的影响极小,其得分显著低于其他金融和人口统计特征。
- 该方法在不同排名算法下均表现稳健,结果一致,支持其在公平性审计中的可靠性。
- 当因缺乏查询访问而使用代理模型时,性能因模型误代表而下降,凸显了直接查询黑箱的优势。
- 该方法使分析人员能够快速识别驱动模型结果的特征,支持针对性的公平性调查与监管合规。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。