QUICK REVIEW

[论文解读] Aequitas: A Bias and Fairness Audit Toolkit

Pedro Saleiro, Benedict Kuester|arXiv (Cornell University)|Nov 14, 2018

Ethics and Social Impacts of AI参考文献 27被引用 64

一句话总结

Aequitas 是一个开源工具包，于2018年发布，能够对 ML 模型在多个人群子群体上的偏见与公平性指标进行审计，集成为 Python 库、CLI 和网页应用，支持与政策相关的决策。

ABSTRACT

Recent work has raised concerns on the risk of unintended bias in AI systems being used nowadays that can affect individuals unfairly based on race, gender or religion, among other possible characteristics. While a lot of bias metrics and fairness definitions have been proposed in recent years, there is no consensus on which metric/definition should be used and there are very few available resources to operationalize them. Therefore, despite recent awareness, auditing for bias and fairness when developing and deploying AI systems is not yet a standard practice. We present Aequitas, an open source bias and fairness audit toolkit that is an intuitive and easy to use addition to the machine learning workflow, enabling users to seamlessly test models for several bias and fairness metrics in relation to multiple population sub-groups. Aequitas facilitates informed and equitable decisions around developing and deploying algorithmic decision making systems for both data scientists, machine learning researchers and policymakers.

研究动机与目标

促成对影响公共政策的 AI 系统进行实用的偏见与公平性审计的需求。
提供一个可操作的工具包，在受保护群体之间计算多样的偏见与公平性指标。
通过提供面向技术和非技术用户的友好界面，架起数据科学与政策之间的桥梁。
推广标准化审计实践，以在模型选择、部署和生产环境中的定期重新评估中提供信息。

提出的方法

定义一组广泛的基于群体的度量，涵盖分布、公平性基于错误以及基于影响的公平性。
允许使用参考组和差异性度量在多个受保护属性群体之间进行比较。
引入可调的对等性参数 tau，以控制可接受的差异范围（如 80% 规则）。
支持在部署前、保留集以及部署后进行审计，包括 A/B 测试设置。
提供一个友好的公平性树，基于政策情境和干预成本引导指标选择。
通过 Python 库、命令行接口以及为政策制定者定制的网页应用提供输出。

实验结果

研究问题

RQ1如何在公共政策机器学习应用中将多种偏见与公平性度量在若干人口统计群体中实现运算化并进行比较？
RQ2在不同干预情境（辅助性与惩罚性）下，哪些差异度量（以及参考组选择）最能反映公平性关注？
RQ3一个实用工具包是否能够帮助数据科学家与政策制定者在真实部署中采用常规偏差审计？
RQ4在不同政策领域（刑事司法、公共卫生、公共安全）在应用 ML 风险评分时，如何呈现出不同的公平性挑战？

主要发现

Aequitas 使在模型开发和部署阶段对多个人口子群体的偏见与公平性度量进行审计成为可能。
该工具包实现了基于分布、基于错误以及基于影响的公平性度量，并对照参考组进行成对群体差异比较。
一个可调的 tau 参数提供灵活的公平性约束，推广了如 80% 规则等概念。
跨刑事司法、公共卫生与警务的案例研究展示了可检测的偏见以及不同模型与基线的比较影响。
审计揭示了专家基线与机器学习模型之间的务实差异，在某些情况下，ML 模型相较于专家启发式法往往减少了某些偏见。
公平性树帮助非技术性政策制定者选择与干预目标相一致的相关公平性指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。