[论文解读] Understanding the Origins of Bias in Word Embeddings
本文提出一种基于影响函数的高效方法,用以近似在移除训练语料库中的小部分后,词嵌入中的偏见将如何变化,从而在不进行完整再训练的情况下识别出引发偏见的文档。
The power of machine learning systems not only promises great technical progress, but risks societal harm. As a recent example, researchers have shown that popular word embedding algorithms exhibit stereotypical biases, such as gender bias. The widespread use of these algorithms in machine learning systems, from automated translation services to curriculum vitae scanners, can amplify stereotypes in important contexts. Although methods have been developed to measure these biases and alter word embeddings to mitigate their biased representations, there is a lack of understanding in how word embedding bias depends on the training data. In this work, we develop a technique for understanding the origins of bias in word embeddings. Given a word embedding trained on a corpus, our method identifies how perturbing the corpus will affect the bias of the resulting embedding. This can be used to trace the origins of word embedding bias back to the original training documents. Using our method, one can investigate trends in the bias of the underlying corpus and identify subsets of documents whose removal would most reduce bias. We demonstrate our techniques on both a New York Times and Wikipedia corpus and find that our influence function-based approximations are very accurate.
研究动机与目标
- 激发并形式化解释词嵌入中偏见产生的机制,以及理解其起源为何重要。
- 提出一种可行的方法,在不重新训练的情况下估计移除单个文档对嵌入偏见的影响。
- 将该方法应用于对 Wikipedia 与 NYT 语料的 GloVe, 并将准确性与真实重新训练结果进行对比验证。
- 分析有影响力的文档如何与 WEAT 偏置指标相关,并探索跨方法的鲁棒性(如对 word2vec 的适用性)。
- 提供对训练语料中偏置分布以及 WEAT 的局限性的定性见解。
提出的方法
- 形式化差分偏置:将移除语料部分 p 时的偏置变化定义为 ΔpB = B(w) − B(ŵ)。
- 通过将语料共现矩阵 X 视为各文档矩阵 X(k) 的和来分解共现扰动。
- 采用偏置梯度 ∇X B(w(X)) 来近似当 X 产生小扰动时偏置的变化(通过链式法则 ∇X B(w(X)) = ∇w B(w) ∇X w(X))。
- 推导适用于 GloVe 的高效、块对角海森矩阵结构,以近似在移除文档时每个单词向量 wi 的变化:ŵi ≈ w*i − (1/V) Hwi^−1 [∇wi Li(ṼXi, w) − ∇wi Li(Xi, w)]。
- 仅对文档中与 WEAT 相关的单词计算变化,以获得 Δdoc B ≈ Bweat(w*) − Bweat(ŵ)。
- 给出算法1:近似差分偏置,用以在不重新训练的情况下将该近似应用于所有文档。
实验结果
研究问题
- RQ1在不重新训练模型的情况下,能否识别出训练语料库中对词嵌入偏见贡献最大的文档?
- RQ2所提出的差分偏置近似在移除文档时预测实际偏置变化的准确性如何?
- RQ3该方法是否能在不同的嵌入方案(GloVe vs. word2vec)和偏置度量(WEAT变体)之间泛化?
- RQ4在扰动语料时,偏置分布和罕见词会出现哪些定性模式?
主要发现
- 该近似与文档移除后的真实偏置变化高度相关(r^2 ≥ 0.985,跨配置)。
- 有针对性的扰动(移除增加/减少偏置的文档)比随机扰动更可靠地再现偏置变化,在 Wiki/NYT 测试中,40组目标集合中仅有 2 组未达到显著性。
- 在 NYT 中移除对偏见影响最大的文档可以显著改变 word2vec 的 WEAT1 偏置(例如基线 1.35 降至移除 1 万文档后的 0.11)。
- 该方法在预测偏置变化方面优于基于 PPMI 的基线(例如相对于 Wiki 类比扰动的约 40% 减少,而非 ~4%)。
- 由该方法识别的有影响力文档与直观语义内容一致(例如关于男性科学家的文章推动偏见),并揭示罕见词对扰动更为敏感。
- 该分析揭示了 WEAT 的局限性和脆弱性(例如对罕见词的敏感性),并显示了对其他偏置度量的跨指标效应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。