Skip to main content
QUICK REVIEW

[论文解读] Calibration for the (Computationally-Identifiable) Masses

Úrsula Hébert-Johnson, Michael P. Kim|arXiv (Cornell University)|Nov 22, 2017
Computability, Logic, AI Algorithms参考文献 13被引用 49
一句话总结

本文提出了多校准(multicalibration)这一公平性准则,确保对所有可通过计算能力有限的函数(例如小型电路)识别的子群体实现准确预测。该文提出一种类似梯度下降的算法,可实现具有可证明准确性和公平性保障的多校准,表明在温和假设下,公平且准确的预测器在计算上是可实现的。

ABSTRACT

As algorithms increasingly inform and influence decisions made about individuals, it becomes increasingly important to address concerns that these algorithms might be discriminatory. The output of an algorithm can be discriminatory for many reasons, most notably: (1) the data used to train the algorithm might be biased (in various ways) to favor certain populations over others; (2) the analysis of this training data might inadvertently or maliciously introduce biases that are not borne out in the data. This work focuses on the latter concern. We develop and study multicalbration -- a new measure of algorithmic fairness that aims to mitigate concerns about discrimination that is introduced in the process of learning a predictor from data. Multicalibration guarantees accurate (calibrated) predictions for every subpopulation that can be identified within a specified class of computations. We think of the class as being quite rich; in particular, it can contain many overlapping subgroups of a protected group. We show that in many settings this strong notion of protection from discrimination is both attainable and aligned with the goal of obtaining accurate predictions. Along the way, we present new algorithms for learning a multicalibrated predictor, study the computational complexity of this task, and draw new connections to computational learning models such as agnostic learning.

研究动机与目标

  • 解决算法歧视问题,其根源并非数据偏差,而是预测器训练过程中学习过程的偏差。
  • 提出一种公平性概念——多校准,确保对由有界复杂度函数类识别的每一个子群体,其预测均是校准的。
  • 证明多校准预测器可在保持高预测准确性的前提下被高效学习。
  • 建立多校准与计算学习模型(如对抗学习)之间的理论联系。
  • 提供一种通用算法,即使在对抗性或噪声条件下,也能从少量标注数据中学习多校准预测器。

提出的方法

  • 提出多校准作为公平性准则:若一个预测器在其预测结果上对由指定有界复杂度函数类 C 中的函数所定义的所有集合均实现校准,则称其为多校准的。
  • 设计一种受梯度下降启发的迭代式、无遗憾在线优化算法,从少量标注样本中学习多校准预测器。
  • 引入对实值预测输出的离散化方案,以处理连续范围,同时保持校准保证。
  • 采用 α-校准 的概念,以限制每个子群体上的预测误差,确保任意子群体上的平均平方误差与该子群体最优预测器的误差相差不超过一个较小的加法因子。
  • 利用预测空间和子群体定义的结构,以逐步减少 C 中所有子群体的误差方式更新预测。
  • 证明该算法通过显示迭代过程中的累积遗憾为次线性,从而收敛至多校准预测器,意味着所有可识别子群体上的预测误差趋近于最优水平。

实验结果

研究问题

  • RQ1我们能否设计一种公平性准则,确保不仅对受保护群体,而且对所有可通过计算能力有限的函数识别的子群体,其预测均准确?
  • RQ2即使子群体数量呈指数级增长,是否仍可高效学习多校准预测器?
  • RQ3多校准与现有公平性概念(如平等机会或人口均等)有何关系?
  • RQ4多校准预测器能否在可接受的小加法误差范围内,实现与每个子群体最优预测器相当的预测准确性?
  • RQ5学习多校准预测器的计算复杂度是多少?它与计算学习理论中的已知问题有何关联?

主要发现

  • 多校准保证:对于由类 C 中函数定义的任意子群体,其预测误差与该子群体最优预测器的误差相差不超过一个较小的加法因子(6α)。
  • 所提出的算法在迭代次数和样本复杂度上均呈多项式增长,其增长与假设类的大小和期望精度成正比。
  • 该算法确保:对于由 H 中函数 h 所识别的任意子群体 S_v(h),预测器的平均平方误差至多比该子群体最优预测器差 6α。
  • 该方法对噪声和对抗性环境具有鲁棒性,因其基于无遗憾在线学习原理,天然适用于非独立同分布数据。
  • 该框架建立了多校准与对抗学习之间的正式联系,表明多校准可被视为一种具有公平性意识的对抗学习变体。
  • 理论分析证明:若一个预测器在 S(H) 的所有集合上实现校准,则其在每个计算可识别子群体上的表现至少与 H 中最佳假设相当,最多存在一个较小的加法误差。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。