[论文解读] Assessing Social and Intersectional Biases in Contextualized Word Representations
论文通过将嵌入关联测试扩展到上下文词表示并引入种族和交叉身份偏见测试,评估最先进的上下文词模型(如 BERT、GPT-2)中的社会与交叉身份偏见。
Social bias in machine learning has drawn significant attention, with work ranging from demonstrations of bias in a multitude of applications, curating definitions of fairness for different contexts, to developing algorithms to mitigate bias. In natural language processing, gender bias has been shown to exist in context-free word embeddings. Recently, contextual word representations have outperformed word embeddings in several downstream NLP tasks. These word representations are conditioned on their context within a sentence, and can also be used to encode the entire sentence. In this paper, we analyze the extent to which state-of-the-art models for contextual word representations, such as BERT and GPT-2, encode biases with respect to gender, race, and intersectional identities. Towards this, we propose assessing bias at the contextual word level. This novel approach captures the contextual effects of bias missing in context-free word embeddings, yet avoids confounding effects that underestimate bias at the sentence encoding level. We demonstrate evidence of bias at the corpus level, find varying evidence of bias in embedding association tests, show in particular that racial bias is strongly encoded in contextual word models, and observe that bias effects for intersectional minorities are exacerbated beyond their constituent minority identities. Further, evaluating bias effects at the contextual word level captures biases that are not captured at the sentence level, confirming the need for our novel approach.
研究动机与目标
- 表明上下文词表示编码了训练语料中存在的社会偏见。
- 将偏见分析从句子编码扩展到上下文词表示,以捕捉特定上下文的偏见。
- 在多种数据集上评估最先进模型(BERT、GPT-2)中的性别、种族和交叉身份身份。
- 引入针对种族和交叉身份的新嵌入关联测试,并将结果与句子级测试进行比较。
提出的方法
- 通过使用令牌级上下文词嵌入而非汇总的句子编码来将 WEAT/SEAT 框架适应到上下文词表示。
- 通过概念和属性嵌入之间的余弦相似度计算关联统计量,并按 WEAT/SEAT 的做法进行置换显著性检验(p 值)。
- 引入以 + 为前缀的新测试,用于种族和交叉身份偏见,使用基于姓名的概念和属性对(如 pleasant/unpleasant、career/family)。
- 在多个模型(CBoW/Glove、ELMo、BERT、GPT、GPT-2)以及在词、句子和上下文词编码之间比较偏见信号,以评估偏见出现的位置。
- 汇总结果,报告显著偏见测试的比例,并检查语料库偏见如何传播到上下文表示。
实验结果
研究问题
- RQ1上下文词表示是否编码了性别、种族和交叉身份偏见,超出句子编码所揭示的范围?
- RQ2在模型(BERT、GPT-2、GPT、ELMo)以及在词、句子和上下文词编码之间,偏见有何差异?
- RQ3在上下文词模型中,种族偏见是否比性别偏见编码得更强?
- RQ4在使用上下文词表示进行评估时,交叉身份(如非裔美国人女性)是否表现出比其组成身份更强的偏见?
- RQ5使用上下文词嵌入的新种族与交叉身份测试是否能够揭示句子级测试未捕捉到的偏见?
主要发现
- 种族偏见在上下文词模型中被强烈编码,常常比性别偏见更强。
- 上下文词表示揭示的偏见并不总是能被句子编码发现;约 37.6% 的显著测试在两种编码中都显示偏见,而 36.6% 仅在上下文词(c-word)编码中检测到偏见。
- BERT (bbc) 在种族和交叉身份测试中显示出高偏见;总体来说,规模更大的模型并不一定增加检测到的偏见,可能显示出更少的显著关联。
- 偏见从语料库层面传播到编码层,语料库中的性别偏向与上下文编码中更高的符合刻板印象的关联相关。
- 交叉身份偏见(非裔美国人女性)比任一组成的少数群体偏见更大,且在交叉身份测试中,种族效应常常压过性别效应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。