QUICK REVIEW

[论文解读] A Convex Framework for Fair Regression

Richard A. Berk, Hoda Heidari|arXiv (Cornell University)|Jun 7, 2017

Ethics and Social Impacts of AI参考文献 19被引用 192

一句话总结

本文提出了一组用于线性回归和逻辑回归的凸性公平性正则化项族，使优化高效，并通过帕累托前沿和 Price of Fairness 在六个数据集上探索准确性-公平性权衡。

ABSTRACT

We introduce a flexible family of fairness regularizers for (linear and logistic) regression problems. These regularizers all enjoy convexity, permitting fast optimization, and they span the rang from notions of group fairness to strong individual fairness. By varying the weight on the fairness regularizer, we can compute the efficient frontier of the accuracy-fairness trade-off on any given dataset, and we measure the severity of this trade-off via a numerical quantity we call the Price of Fairness (PoF). The centerpiece of our results is an extensive comparative study of the PoF across six different datasets in which fairness is a primary consideration.

研究动机与目标

在回归场景中动机与形式化公平性，超越分类场景。
引入一个灵活的凸性正则化项族，强制实现群体之间或个体之间的公平性。
通过改变公平性权重来实现准确性-公平性帕累托前沿的计算。
用数据相关的 Price of Fairness (PoF) 量化权衡的严重程度。
在多数据集上提供广泛的实证研究，以比较不同的公平性观念及对受保护变量的处理。

提出的方法

定义一个加权目标，其将回归损失、L2正则化以及带权重 lambda 的凸性公平性正则化项结合起来。
提出两个核心公平性惩罚项：f1 用于个体公平性，f2 用于群体公平性，它们均作用于跨群体样本对并按 d(y_i,y_j) 加权。
扩展到单模型设置和受保护组的分离模型设置。
通过在二进制情形下按标签对跨样本对进行分组并应用平方平均惩罚，允许混合公平性。
对数据集进行归一化，并分别为实值目标和二进制目标选择合适的 d(y_i,y_j)（分别为 e^(-(y_i-y_j)^2) 和 1[y_i=y_j]）。
通过对不同的 lambda 求解 min_w l(w,S) + lambda f(w,S) + gamma||w||^2 来计算 Pareto frontier。

实验结果

研究问题

RQ1如何在凸优化框架中对回归进行正则化，以在受保护群体或个体之间实现公平？
RQ2不同公平性概念（个体、公平性、混合）对跨数据集的回归准确性的影响如何？
RQ3相对于单一共享模型，允许对不同群体使用分离模型是否在实质上改善了公平性-准确性权衡？
RQ4当公平性要求变严格时，准确性成本有多大，以及如何在跨数据集上量化？
RQ5d(y_i,y_j) 的选取如何影响公平性-准确性前沿和 PoF？

主要发现

一个灵活的、凸性的公平性正则化项族在回归任务中覆盖了从个体公平到群体公平的范围。
改变公平性权重会产生一个帕累托前沿，展示跨数据集的准确性-公平性权衡。
The Price of Fairness (PoF) 量化在公平性约束下的相对准确性损失，并随数据集和公平性概念而变化。
在六个数据集的实证研究中，PoF 通常在个体公平性低于群体公平性之上，且存在显著的领域相关差异。
对群体使用分离模型通常几乎没有改善，甚至可能因过拟合而恶化样本外性能。
混合公平性可能产生不同的权衡，取决于数据集和标注制度，强调没有普适的公平性准则。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。