[论文解读] Quantifying and Reducing Stereotypes in Word Embeddings
本文提出一种新方法,通过结合性别类比任务与众包方式,量化并减少词嵌入中的性别刻板印象。该方法引入一种去偏算法,在最小影响语义相似度和类比性能的前提下,将性别刻板印象方差减少90%,同时保持下游任务的准确性。
Machine learning algorithms are optimized to model statistical properties of the training data. If the input data reflects stereotypes and biases of the broader society, then the output of the learning algorithm also captures these stereotypes. In this paper, we initiate the study of gender stereotypes in {\em word embedding}, a popular framework to represent text data. As their use becomes increasingly common, applications can inadvertently amplify unwanted stereotypes. We show across multiple datasets that the embeddings contain significant gender stereotypes, especially with regard to professions. We created a novel gender analogy task and combined it with crowdsourcing to systematically quantify the gender bias in a given embedding. We developed an efficient algorithm that reduces gender stereotype using just a handful of training examples while preserving the useful geometric properties of the embedding. We evaluated our algorithm on several metrics. While we focus on male/female stereotypes, our framework may be applicable to other types of embedding biases.
研究动机与目标
- 系统量化预训练词嵌入中的性别刻板印象,特别是与职业相关的内容。
- 开发一种可扩展的方法,以减少词嵌入中的偏见,同时不损害其语义实用性。
- 评估是否可以通过去偏处理将刻板印象关联(例如,nurse:woman)与定义性关联(例如,sister:woman)分离。
- 在去偏后保持嵌入的几何结构,确保在标准NLP基准测试中持续保持性能。
提出的方法
- 提出一种性别类比任务,以生成刻板印象类比对与非刻板印象类比对,并通过美国籍Turkers的众包方式进行验证。
- 提出一种半定规划(SDP)公式,以学习一个变换矩阵T,使偏见最小化,同时保持嵌入空间中的成对距离。
- 对背景词矩阵A进行奇异值分解(SVD),以降低计算复杂度,实现在大规模嵌入上的高效优化。
- 将变换T应用于词向量,使得刻板印象词(如nurse、manager)在he-she方向上的投影最小化,使其与性别方向正交。
- 通过目标函数中的超参数λ平衡偏见减少与距离保持:min ||AXAᵀ − AAᵀ||²_F + λ||PXBᵀ||²_F。
- 使用少量种子词(如manager、nurse)定义偏见方向,并将变换应用于整个嵌入矩阵。
实验结果
研究问题
- RQ1预训练词嵌入在多大程度上编码了有害的性别刻板印象,特别是在职业角色方面?
- RQ2是否能够系统识别并分离刻板印象关联(如woman:homemaker)与非刻板印象语义关系(如woman:sister)?
- RQ3是否仅通过少量训练样本即可减少词嵌入中的性别偏见,而不会降低在语义和句法任务上的性能?
- RQ4去偏变换是否能保持原始嵌入空间的几何结构?
主要发现
- 原始嵌入中,沿he-she方向的性别刻板印象词方差从0.02降至去偏后的0.001,表明偏见减少了90%。
- 与性别刻板印象无关的背景词方差变化极小(去偏前为0.005,去偏后为0.0055),证实变换保留了非偏见语义结构。
- 去偏后的嵌入在标准基准测试中保持或略有提升:RG分数从0.761增至0.764,WS353从0.700增至0.700,RW从0.471增至0.472,MSR-analogy从0.712增至0.712。
- 该方法成功减少了刻板印象类比(如he:janitor :: she:housekeeper),同时保留了非刻板印象类比(如he:realist :: she:feminist)。
- 通过SVD驱动的降维,该去偏算法在大规模嵌入(如40万词)上计算上是可行的。
- 众包评估确认,该算法有效去除了偏见,同时保持了下游NLP任务中的语义连贯性与实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。