Skip to main content
QUICK REVIEW

[论文解读] Assessing Algorithmic Fairness with Unobserved Protected Class Using Data Combination

Nathan Kallus, Xiaojie Mao|arXiv (Cornell University)|Jun 1, 2019
Insurance, Mortality, Demography, Risk Management参考文献 50被引用 31
一句话总结

本文提出一种方法,用于在受保护类别成员身份(如种族、性别)未被观测时评估算法公平性,通过将主数据集与包含代理变量(如姓氏、地理位置)的辅助数据集相结合。该方法提供了最紧密可能的、一致的差异集合的精确表征,并提供了优化与可视化工具,使在抵押贷款和个性化医疗等现实应用中的鲁棒公平性评估成为可能。

ABSTRACT

The increasing impact of algorithmic decisions on people's lives compels us to scrutinize their fairness and, in particular, the disparate impacts that ostensibly-color-blind algorithms can have on different groups. Examples include credit decisioning, hiring, advertising, criminal justice, personalized medicine, and targeted policymaking, where in some cases legislative or regulatory frameworks for fairness exist and define specific protected classes. In this paper we study a fundamental challenge to assessing disparate impacts in practice: protected class membership is often not observed in the data. This is particularly a problem in lending and healthcare. We consider the use of an auxiliary dataset, such as the US census, to construct models that predict the protected class from proxy variables, such as surname and geolocation. We show that even with such data, a variety of common disparity measures are generally unidentifiable, providing a new perspective on the documented biases of popular proxy-based methods. We provide exact characterizations of the tightest-possible set of all possible true disparities that are consistent with the data (and possibly any assumptions). We further provide optimization-based algorithms for computing and visualizing these sets and statistical tools to assess sampling uncertainty. Together, these enable reliable and robust assessments of disparities -- an important tool when disparity assessment can have far-reaching policy implications. We demonstrate this in two case studies with real data: mortgage lending and personalized medicine dosing.

研究动机与目标

  • 解决在现实数据集中受保护类别成员身份未被观测时评估算法公平性的关键挑战,特别是在贷款和医疗等敏感领域。
  • 克服依赖受保护状态间接指标的代理方法的局限性,这些方法已知会引入偏差且缺乏理论保证。
  • 开发一个原则性框架,以计算与观测数据和辅助代理信息一致的最紧密可能的全部差异集合。
  • 通过量化抽样不确定性并提供可视化工具,实现可靠、稳健且具有政策相关性的公平性评估。
  • 通过抵押贷款和个性化医疗剂量调整的案例研究,展示该方法的实际效用。

提出的方法

  • 使用辅助数据集(如美国人口普查)基于姓氏和地理位置等代理变量建模受保护类别成员身份的概率。
  • 将问题表述为约束优化任务,以在观测数据和代理模型下计算最紧密可能的差异度量(如人口均等性、平等机会)的边界。
  • 使用凸优化技术表征与数据和任何假设一致的所有可能真实差异的集合。
  • 开发算法以计算和可视化这些差异边界,使公平性评估更具可解释性和鲁棒性。
  • 整合统计工具以量化估计边界中的抽样不确定性,提高政策决策的可靠性。
  • 将该框架应用于抵押贷款和个性化医疗中的真实世界数据集,证明其可行性和影响力。

实验结果

研究问题

  • RQ1当主数据集中受保护类别成员身份未被观测时,我们能在多大程度上可靠地界定算法差异?
  • RQ2用于推断受保护类别成员身份的常见代理方法在多大程度上影响公平性评估的可识别性和准确性?
  • RQ3与观测数据和辅助代理信息一致的最紧密可能的差异集合是什么,以及如何高效计算?
  • RQ4如何量化和可视化差异边界的抽样不确定性,以支持稳健决策?
  • RQ5所提出的框架能否在抵押贷款和个性化医疗等高风险领域中有效应用于现实世界的公平性评估?

主要发现

  • 当受保护类别成员身份未被观测时,即使有辅助代理数据,常见的差异度量通常仍无法识别,凸显了基于代理的公平性评估的根本局限性。
  • 所提出的方法提供了与数据一致的最紧密可能差异集合的精确表征,为基于代理的插补方法提供了更可靠的替代方案。
  • 该框架能够计算并可视化差异边界,使从业者能够在不确定性下稳健地评估公平性。
  • 整合了用于抽样不确定性的统计工具,增强了现实应用中公平性评估的可靠性。
  • 抵押贷款和个性化医疗的案例研究证明了该方法的实际效用,能够揭示原本可能被掩盖的重要差异。
  • 该方法揭示了基于代理的方法可能产生误导性的公平性结论,强调了对更严格、基于边界的评估框架的迫切需求。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。