[论文解读] What's in a Name? Reducing Bias in Bios without Access to Protected Attributes
本文提出两种训练时罚项(CluCL 和 CoCL),以防止分类器将职业预测与姓名嵌入关联,从而在部署时不使用受保护属性的情况下降低种族和性别偏见。
There is a growing body of work that proposes methods for mitigating bias in machine learning systems. These methods typically rely on access to protected attributes such as race, gender, or age. However, this raises two significant challenges: (1) protected attributes may not be available or it may not be legal to use them, and (2) it is often desirable to simultaneously consider multiple protected attributes, as well as their intersections. In the context of mitigating bias in occupation classification, we propose a method for discouraging correlation between the predicted probability of an individual's true occupation and a word embedding of their name. This method leverages the societal biases that are encoded in word embeddings, eliminating the need for access to protected attributes. Crucially, it only requires access to individuals' names at training time and not at deployment time. We evaluate two variations of our proposed method using a large-scale dataset of online biographies. We find that both variations simultaneously reduce race and gender biases, with almost no reduction in the classifier's overall true positive rate.
研究动机与目标
- 推动在不使用受保护属性的情况下减少职业预测偏见。
- 利用嵌入姓名中的社会偏见来约束学习。
- 引入两种基于损失的罚项(CluCL 和 CoCL),可与任何分类器兼容。
- 在大型 bios 数据集上展示偏见降低,带来最小 TPR 损失。
提出的方法
- 用词嵌入表示姓名,并对簇应用 k-means 聚类(CluCL),以对齐跨簇的预测职业概率。
- 定义协方差约束损失(CoCL),以将预测的职业概率与姓名嵌入之间的协方差降至最小。
- 将每个损失与标准损失结合,记为 L_total = L + lambda * L_CL,其中 lambda 控制罚项强度。
- 对每个类别(职业)应用计算,以求出簇间差异或协方差,然后对类别求平均。
- 使用单层神经网络分类器,以便对权重调整进行解释。
- 使用加权交叉熵进行评估,以应对类别不平衡,报告在种族/性别间的平衡 TPR 与差距。
实验结果
研究问题
- RQ1姓名嵌入是否隐式捕捉到会传播到职业预测中的种族和性别偏见?
- RQ2通过约束预测与姓名嵌入之间的相关性,是否可以在不使用受保护属性的情况下降低偏见?
- RQ3CluCL 和 CoCL 是否在对整体分类器性能影响有限的情况下降低种族和性别偏见?
- RQ4在不同姓名可用性的数据集(原始与经处理的 Bios)以及在合成姓名实验中的表现如何?
- RQ5是否有可能仅在训练时使用基于姓名的代理来缓解包括交集在内的多重偏见?
主要发现
- CluCL 和 CoCL 均可以降低职业预测中的种族和性别偏见。
- 在 Adult 数据集上,λ=2 的 CoCL 将 RMS 种族差距由 0.12 降至 0.08,RMS 性别差距由 0.299 降至 0.163,平衡 TPR 仅下降 0.5%。
- 在 Adult 数据集上,λ=2 的 CluCL 将 RMS 种族差距降至 0.085,RMS 性别差距降至 0.165,平衡 TPR 下降约 1.0%。
- 在 Bios 数据集上,λ=2 的 CoCL 将 RMS 种族差距降至 0.046,RMS 性别差距降至 0.109(原始)且平衡 TPR 变化约0.0–0.5%,具体取决于设置。
- 在 Bios 已处理数据集上,两种方法仍能降低偏见,但幅度较小,因为移除了姓名/代词。
- 增大 lambda 通常会降低偏见,但可能影响平衡 TPR;在 lambda 约为 6 的范围内可以在保持 modest TPR 损失的同时实现显著的偏见降低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。