QUICK REVIEW

[论文解读] Evaluating the Underlying Gender Bias in Contextualized Word Embeddings

Christine Basta, Marta R. Costa‐jussà|arXiv (Cornell University)|Apr 18, 2019

Topic Modeling参考文献 20被引用 27

一句话总结

本文使用多种既有的偏见测量技术，评估上下文相关词嵌入中的性别偏见。研究发现，尽管上下文相关嵌入在性别空间和直接偏见测量中减少了显性性别偏见，但仍保留了强烈的隐性性别关联，基于上下文的性别分类准确率超过85%，表明尽管架构有所改进，残余偏见依然存在。

ABSTRACT

Gender bias is highly impacting natural language processing applications. Word embeddings have clearly been proven both to keep and amplify gender biases that are present in current data sources. Recently, contextualized word embeddings have enhanced previous word embedding techniques by computing word vector representations dependent on the sentence they appear in. In this paper, we study the impact of this conceptual change in the word embedding computation in relation with gender bias. Our analysis includes different measures previously applied in the literature to standard word embeddings. Our findings suggest that contextualized word embeddings are less biased than standard ones even when the latter are debiased.

研究动机与目标

探究上下文相关词嵌入相较于标准词嵌入是否减少了或放大了性别偏见。
评估现有偏见测量技术（如性别空间、直接偏见和聚类）在上下文相关嵌入上的有效性。
识别在上下文相关表示中被保留或缓解的性别偏见方面，尤其是与去偏和未去偏的标准嵌入相比。
通过识别对上下文相关模型最具有信息量的偏见评估指标，为未来去偏方法和公平的NLP模型设计提供洞见。

提出的方法

将先前用于标准词嵌入研究的既定偏见评估框架应用于上下文相关嵌入，包括性别空间、直接偏见和男女聚类分析。
通过上下文相关词向量执行性别分类任务，模型根据其向量表示预测与某一职业相关的性别，共进行10次随机试验以确保结果稳健。
使用k-最近邻（k-NN）方法分析刻板印象关联，测量每个职业词最近邻中男性或女性刻板印象职业的比例。
计算刻板印象邻居比例与原始职业性别偏见之间的皮尔逊相关系数，并通过p值检验显著性。
所有实验均重复10次，使用随机化的上下文句子，以确保表示稳定性并减少结果方差。
通过比较标准嵌入（去偏和未去偏）与上下文相关嵌入（如ELMo、BERT）的结果，隔离上下文感知表示的影响。

实验结果

研究问题

RQ1与标准词嵌入相比，使用上下文相关词嵌入是否减少了性别偏见？
RQ2在性别分类准确率的衡量下，隐性性别偏见在上下文相关嵌入中保留的程度如何？
RQ3与标准嵌入相比，上下文相关嵌入在性别特定聚类和最近邻刻板印象化方面表现如何？
RQ4哪些偏见评估指标对上下文相关表示中的残余性别偏见最敏感？

主要发现

与标准嵌入相比，上下文相关词嵌入在性别空间和直接偏见方面表现出减少，表明显性性别偏见得到了可测量的缓解。
上下文相关嵌入的性别分类准确率在10次实验中的平均值为85.56%，最低为83.33%，最高为88.43%，显示出强烈的隐性性别关联。
k-最近邻分析显示，刻板印象邻居比例与原始性别偏见之间的皮尔逊相关系数为0.89（范围：0.801–0.961），显著高于去偏（0.606）和未去偏（0.774）标准嵌入。
上下文相关嵌入在男性和女性刻板印象职业聚类方面强于去偏和未去偏标准嵌入，表明邻域结构中的性别刻板印象被放大。
尽管显性偏见降低，上下文相关嵌入仍保留甚至放大了隐性性别偏见，表明当前的去偏技术可能尚未完全解决与上下文相关的性别关联。
结果表明，未来针对上下文相关模型的去偏方法应优先考虑隐性性别预测和刻板印象聚类等指标，这些指标揭示的残余偏见高于传统测量方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。