QUICK REVIEW

[论文解读] Fair Data Adaptation with Quantile Preservation

Drago Plečko, Nicolai Meinshausen|arXiv (Cornell University)|Nov 15, 2019

Income, Poverty, and Inequality被引用 6

一句话总结

本文提出了一种用于公平机器学习的预处理方法，通过在结构因果模型中保持分位数不变，实现数据适应，确保无论模型误设如何，分类器均保持公平。通过在受保护属性上进行干预时保持反事实分位数不变，该方法即使在底层因果模型错误的情况下，也能保证群体层面的公平性（例如，人口均等性、反事实公平性）。该方法通过随机森林模型进行了实证验证，并发布了 R 包 fairadapt。

ABSTRACT

Fairness of classification and regression has received much attention recently and various, partially non-compatible, criteria have been proposed. The fairness criteria can be enforced for a given classifier or, alternatively, the data can be adapated to ensure that every classifier trained on the data will adhere to desired fairness criteria. We present a practical data adaption method based on quantile preservation in causal structural equation models. The data adaptation is based on a presumed counterfactual model for the data. While the counterfactual model itself cannot be verified experimentally, we show that certain population notions of fairness are still guaranteed even if the counterfactual model is misspecified. The precise nature of the fulfilled non-causal fairness notion (such as demographic parity, separation or sufficiency) depends on the structure of the underlying causal model and the choice of resolving variables. We describe an implementation of the proposed data adaptation procedure based on Random Forests and demonstrate its practical use on simulated and real-world data.

研究动机与目标

通过转换数据以确保在该数据上训练的所有分类器均满足公平性标准，而非在事后修改模型，从而解决机器学习中的公平性问题。
提供一种基于因果结构方程模型（SEMs）的实用预处理方法，通过在受保护属性上干预时保持分位数不变，实现公平性。
证明即使假设的因果模型存在误设，公平性概念（如人口均等性、反事实公平性）仍能得以保持。
通过允许用户定义解决性变量与非解决性变量，实现灵活的公平性控制，从而显式建模因果路径。
使用随机森林实现并验证该方法，将其作为 R 包（fairadapt）发布，以供实际应用。

提出的方法

使用非参数结构方程模型（NPSEM），其中每个变量是其父节点和一个潜变量（均匀分位数变量 U）的函数。
应用分位数保持假设（QPA）：在对受保护属性 A 进行 do-干预时，条件分位数 U 保持不变。
将反事实值 X(A = a, U = u) 定义为在干预 do(A = a) 下的输出，同时保持潜变量分位数 U 固定。
通过算法 1 实现数据适应，该算法递归地使用父变量计算变换后的值，其中适应父集（aps）用于选择性地移除不公平路径。
对于解决性变量，aps(R) = ∅；对于非解决性变量，aps(X) = pa(X)，从而选择性地移除受保护属性带来的不公平影响。
在适应后的数据中使用随机森林进行预测，以实现公平性与性能的实用部署与评估。

实验结果

研究问题

RQ1基于分位数保持的数据适应是否能确保在模型误设情况下，所有在适应数据上训练的分类器均保持公平？
RQ2选择解决性变量与非解决性变量如何影响最终分类器的公平性属性？
RQ3在因果模型误设的情况下，该方法在多大程度上能保证反事实公平性与人口均等性？
RQ4该方法是否能够使用随机森林等标准机器学习算法实现实际部署与可扩展性？
RQ5与现有预处理公平性技术相比，该方法在公平性与预测性能方面表现如何？

主要发现

该方法保证了任何其父变量均来自不以受保护属性 A 为后代的分位数集合的预测器的人口均等性。
在无法验证的分位数保持假设下，该方法确保了个体层面的反事实公平性，即预测分布对受保护属性的干预保持不变。
即使假设的因果模型存在错误，该方法仍能维持某些群体层面的公平性概念，如人口均等性与分离性，具体取决于因果图结构。
在 UCI Adult 数据集上的实证评估表明，通过子采样去除年龄与种族相关的采样偏差后，适应后的数据能产生更公平的预测，且性能损失不显著。
R 包 fairadapt 使得该方法得以实际应用，展示了在多种公平性标准下具有竞争力的性能与公平性表现。
该方法通过将公平性概念与因果图结构对齐，实现了有原则的公平性选择，为敏感领域中公平性标准的共识提供了一个框架。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。