QUICK REVIEW

[论文解读] Measuring Bias in Contextualized Word Representations

Keita Kurita, Nidhi Vyas|arXiv (Cornell University)|Jun 18, 2019

Hate Speech and Cyberbullying Detection参考文献 25被引用 19

一句话总结

本文提出一种基于模板的方法，通过查询 BERT 的掩码语言建模头，计算特定属性（如“程序员”）下性别化目标（如“he”与“she”）之间的对数概率比，以衡量 BERT 中的偏见。该方法在与人类偏见的一致性方面优于传统的余弦相似度方法，并揭示了职业和特质相关属性中存在强烈的男性性别关联，其中 88.5% 的高薪职位表现出对 'he' 的更强关联。

ABSTRACT

Contextual word embeddings such as BERT have achieved state of the art performance in numerous NLP tasks. Since they are optimized to capture the statistical properties of training data, they tend to pick up on and amplify social stereotypes present in the data as well. In this study, we (1)~propose a template-based method to quantify bias in BERT; (2)~show that this method obtains more consistent results in capturing social biases than the traditional cosine based method; and (3)~conduct a case study, evaluating gender bias in a downstream task of Gender Pronoun Resolution. Although our case study focuses on gender bias, the proposed technique is generalizable to unveiling other biases, including in multiclass settings, such as racial and religious biases.

研究动机与目标

开发一种更一致且可靠的测量方法，用于衡量上下文相关的词嵌入（如 BERT）中的偏见，因为传统基于余弦相似度的方法无法可靠捕捉此类偏见。
研究 BERT 中内在偏见（尤其是性别偏见）在下游任务（如性别代词解析）中的表现形式。
利用真实世界数据集，量化 BERT 在职业头衔、人格特质和职业技能方面的性别偏见程度。
证明通过该方法测量的偏见与下游任务（如性别代词解析）的表现之间存在强相关性，凸显其在真实 NLP 应用中的风险。

提出的方法

构建简单的模板句子，如 ‘[MASK] 是一个 [ATTRIBUTE]’，其中 [MASK] 被替换为目标代词（如 ‘he’ 或 ‘she’），以查询 BERT 的掩码语言建模预测结果。
计算给定属性下目标词的条件概率 $ p_{tgt} = P([MASK] = \text{target} \mid \text{sentence}) $。
计算先验概率 $ p_{prior} = P([MASK] = \text{target} \mid \text{sentence with both targets and attribute masked}) $，以对模型对目标的固有偏好进行归一化。
计算对数概率偏见得分 $ \log{\frac{p_{tgt}}{p_{prior}}} $，以衡量目标与属性之间的相对关联强度。
利用此归一化得分比较两个目标（如 ‘he’ 与 ‘she’）之间的关联，并将差值作为最终的偏见得分。
在多个数据集上应用该方法：员工薪资（高薪职位）、积极/消极特质，以及 O*NET（技能），并使用一致的模板。

实验结果

研究问题

RQ1基于模板的掩码语言建模方法是否能比传统的基于余弦相似度的方法提供更一致、更可靠的 BERT 偏见测量？
RQ2BERT 在其与职业头衔、人格特质和职业技能的关联中，性别偏见的程度如何？
RQ3通过所提方法测量的内在偏见与下游任务（如性别代词解析）中的性能退化之间是否存在显著相关性？
RQ4在多类别或刻板印象属性设置下，该方法是否能揭示比先前方法更细致或更细微的偏见模式？

主要发现

所提出的基于对数概率的偏见得分方法在与人类标注的偏见一致性方面优于传统的 WEAT/余弦相似度方法，尤其在上下文嵌入中表现更优。
在蒙哥马利县员工薪资数据集中，前 1,000 个高薪职位中，有 88.5% 表现出对男性代词 'he' 的更强关联，而非 'she'。
80.0% 的积极人格特质和 78.9% 的消极特质更强烈地与 'he' 关联，表明性别关联普遍存在。
84.0% 的 O*NET 技术技能表现出对 'he' 的更强关联，表明偏见已延伸至技术能力领域。
通过该方法测量的内在偏见与性别代词解析任务中的性能下降存在强且显著的相关性，表明其在真实应用中存在下游影响。
该方法成功揭示了多种属性类型中的偏见，包括职业声望、人格特质和技能，证明其在二元性别刻板印象之外也具有良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。