Skip to main content
QUICK REVIEW

[论文解读] Attenuating Bias in Word Vectors

Sunipa Dev, Jeff M. Phillips|arXiv (Cornell University)|Jan 23, 2019
Hate Speech and Cyberbullying Detection被引用 96
一句话总结

本文提出简单、自动的方法来识别偏置方向(常使用名字),并对词向量进行投影以减弱性别、种族和年龄偏见,在某些指标上优于以往的硬去偏方法,并拓展到非性别偏见。

ABSTRACT

Word vector representations are well developed tools for various NLP and Machine Learning tasks and are known to retain significant semantic and syntactic structure of languages. But they are prone to carrying and amplifying bias which can perpetrate discrimination in various applications. In this work, we explore new simple ways to detect the most stereotypically gendered words in an embedding and remove the bias from them. We verify how names are masked carriers of gender bias and then use that as a tool to attenuate bias in embeddings. Further, we extend this property of names to show how names can be used to detect other types of bias in the embeddings such as bias based on race, ethnicity, and age.

研究动机与目标

  • 推动从词嵌入中移除偏见,以防止产生歧视性结果。
  • 引入基于名字或词对得到的简单、自动化的偏置方向。
  • 提出基于投影的去偏方法,在某些设置中优于硬去偏。
  • 证明名字不仅捕捉性别偏见(还包括种族、国籍、年龄)等偏见,并能引导去偏。
  • 使用避免众包的自动指标来评估去偏。

提出的方法

  • 用偏置词对 E_j 的差分 e_i^+ - e_i^- 推导出的子空间 v_B 来表示偏置。
  • 定义投影 pi_B(w) = <w, v_B> v_B,以从词向量中去除偏置分量。
  • 将简单线性投影与 Bolukbasi 等人的 Hard Debiasing (HD) 进行比较,并在某些设置中显示出更强的偏置减弱。
  • 引入部分投影和阻尼函数 f_i(η),以限制对正交分量较大词的偏置去除,受参数 σ 控制(设为 1)。
  • 使用基于名字的方向 v_B,names(通过男性名与女性名向量的平均值)来检测和去除性别偏见,结果与成对方向相近。
  • 探索将原始文本进行翻转作为偏置免疫策略(概率为 0.5、0.75、1.0),并评估对偏见的潜在副作用。
  • 使用自动指标量化偏见:WEAT、Embedding Coherence Test (ECT) 和 EQT(含词对与含名字),以及标准的相似性/类比测试。

实验结果

研究问题

  • RQ1简单的、沿偏置方向的自动线性投影是否能有效减弱词嵌入中的偏见?
  • RQ2名字是否是识别性别偏见的稳健起点,并且能否扩展到种族、国籍与年龄偏见?
  • RQ3基于投影的去偏方法与先前的硬去偏在偏见衰减与词汇/语义完整性方面的对比?
  • RQ4哪些自动指标最能捕捉去偏后剩余的偏见和保留的结构?
  • RQ5训练语料中的文本翻转策略是否对得到的嵌入偏见有显著影响?

主要发现

  • 沿着偏置方向的简单线性投影在他们的测试中通常比 Hard Debiasing 更有效地减少偏见(例如 WEAT 分数在投影后恶化较少)。
  • 使用名字来定义性别偏置方向,在识别和去除偏见方面的结果与词对方法相当。
  • 名字可以揭示超越性别的偏见,使得对种族(西班牙裔对欧洲裔美籍、非裔美国人对欧洲裔美籍)和年龄相关偏见的检测与减弱成为可能。
  • 定量评估显示 WEAT 分数从原始约 1.623 降至各方法 ~1.1–1.23,表明偏见减弱;ECT 分数在投影下提高或维持在高位(例如 ~0.996 与 v_B;EQT 相对于原始有所提升(~0.283 与投影)。
  • 嵌入相关的度量(WSim、SimLex、Google Analogy)在去偏后通常略有下降,表明整体语言结构有所损失;而受抑制的投影变体略微比 HD 更好地保留结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。