[论文解读] Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation
本文提出 Distill-and-Compare 方法,仅使用带有风险评分和真实结果的标注审计数据,无需 API 访问权限,即可审计黑箱风险评分模型。该方法训练一个透明的模仿模型以蒸馏黑箱模型的行为,并与基于真实结果训练的透明结果模型进行比较,从而揭示偏差和缺失特征;主要发现表明,ProPublica COMPAS 数据集可能缺少关键特征,且模型保真度对缺失特征的敏感度高于对数据规模的敏感度。
Black-box risk scoring models permeate our lives, yet are typically proprietary or opaque. We propose Distill-and-Compare, a model distillation and comparison approach to audit such models. To gain insight into black-box models, we treat them as teachers, training transparent student models to mimic the risk scores assigned by black-box models. We compare the student model trained with distillation to a second un-distilled transparent model trained on ground-truth outcomes, and use differences between the two models to gain insight into the black-box model. Our approach can be applied in a realistic setting, without probing the black-box model API. We demonstrate the approach on four public data sets: COMPAS, Stop-and-Frisk, Chicago Police, and Lending Club. We also propose a statistical test to determine if a data set is missing key features used to train the black-box model. Our test finds that the ProPublica data is likely missing key feature(s) used in COMPAS.
研究动机与目标
- 在仅能获取带有风险评分和结果的标注数据而无 API 访问权限的情况下,开发一种现实可行的黑箱风险评分模型审计方法。
- 检测审计数据是否缺少黑箱模型训练过程中使用的关键特征。
- 通过比较远距离训练的模仿模型(模仿黑箱模型)与基于真实结果训练的透明结果模型,揭示黑箱模型中的偏差与行为复杂性。
- 通过在审计过程中包含受保护特征(如种族),实现在输入中不使用这些特征时仍能检测隐藏偏差。
提出的方法
- 使用预测风险评分与实际风险评分之间的均方误差损失,训练一个模仿模型(学生)以蒸馏黑箱模型(教师)的风险评分。
- 在相同审计数据上独立训练一个透明结果模型,使用对数似然损失预测真实结果。
- 通过分析特征重要性差异与函数形式差异,比较两个透明模型——模仿模型与结果模型。
- 使用统计假设检验判断审计数据是否缺少黑箱模型训练过程中使用的关键特征。
- 对风险评分进行校准,以纠正黑箱模型训练过程中引入的尺度失真。
- 应用改进的 iGAM(透明模型)置信区间估计,以比较模型可解释性与保真度。
实验结果
研究问题
- RQ1我们能否在不访问其 API 或训练数据的情况下,仅使用带有风险评分和结果的标注数据,审计黑箱风险评分模型?
- RQ2审计数据是否缺少黑箱模型训练过程中使用的关键特征?
- RQ3远距离训练的模仿模型与真实结果模型之间的差异,如何揭示黑箱模型中的偏差或功能复杂性?
- RQ4数据缺失或特征缺失在多大程度上会降低模型蒸馏的保真度?
- RQ5即使受保护特征(如种族)未作为输入使用,透明模型能否检测到偏差?
主要发现
- 统计检验与模仿模型保真度较差表明,ProPublica COMPAS 数据集很可能缺少原始模型训练中使用的关键特征。
- 在 COMPAS 数据上训练的模仿模型 RMSE 为 2.0,当额外加入 3,000 个未标注个体后,仅略微改善至 1.98,表明数据规模并非主要问题。
- 当训练数据减少至仅 1,000 个样本时,RMSE 上升至 2.1,保真度下降更严重,但准确模仿的主要障碍更可能是缺失特征而非数据稀缺。
- 线性模仿模型在多个模型(COMPAS、芝加哥警察、盘查)上的表现几乎与 iGAM 相当,表明黑箱模型可能具有简单的函数形式。
- 该方法揭示,即使从输入中排除受保护特征(如种族),也无法阻止偏差;相反,偏差可能通过相关特征被学习,使检测更加困难。
- 在审计过程中包含受保护特征,即使它们未作为输入使用,也能检测到偏差,表明模仿模型能够揭示隐藏的偏差传播。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。