[论文解读] Evaluating Metrics for Bias in Word Embeddings
本文提出 SAME(Word Embeddings 关联得分的评分方法),一种基于余弦相似度的新偏差度量方法,用于修正现有度量方法(如 WEAT、Direct Bias 和 MAC)中的理论缺陷。该方法形式化定义了偏差度量的理想属性,证明 SAME 满足这些属性,并通过实验表明,SAME 在检测偏差方面优于以往方法,尤其在子集选择和偏见/刻板印象区分方面表现更优。
Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately.
研究动机与目标
- 识别现有基于余弦相似度的偏差度量方法(如 WEAT、Direct Bias 和 MAC)中的理论缺陷。
- 在词嵌入的背景下,形式化定义有意义的偏差得分函数所需的一组数学要求。
- 提出一种新偏差度量方法 SAME,使其满足所有形式化要求,并提升可靠性与可比性。
- 通过在带有偏差的数据上微调 BERT 模型的受控实验,对 SAME 进行实证验证,对比现有度量方法。
- 分别区分并评估偏差的偏斜(skew)与刻板印象(stereotype),以增强可解释性与检测准确性。
提出的方法
- 基于向量空间中的几何关系形式化定义偏差,以余弦相似度为核心度量。
- 定义偏差度量的四项正式要求:可比性、可信度、对偏差的敏感性,以及置换不变性。
- 将现有度量方法(WEAT、Direct Bias、MAC)与这些要求进行对比分析,揭示其理论缺陷。
- 提出 SAME,作为 WEAT 核心思想的重构,将基于群体的比较替换为基于均值的关联得分。
- 扩展 SAME 以处理多属性偏差,并分别引入用于偏斜(均值偏差)和刻板印象(标准差)的独立变体。
- 通过在带有偏差的数据上微调 BERT 模型,创建真实偏差的基准,然后评估各度量方法在检测偏差方面的能力。
实验结果
研究问题
- RQ1广泛使用的基于余弦相似度的偏差度量方法(如 WEAT、Direct Bias 和 MAC)存在哪些理论缺陷?
- RQ2如何形式化定义一个偏差度量,以确保其在不同词嵌入之间既可信又可比?
- RQ3能否构建一种新度量方法,使其满足所有形式化要求,同时提升对偏斜与刻板印象偏差的检测能力?
- RQ4在真实世界条件下(如子集选择与数据置换)下,所提出的 SAME 度量在检测偏差方面表现如何?
- RQ5偏斜与刻板印象度量在捕捉词嵌入中不同偏差方面,其互补性在多大程度上成立?
主要发现
- WEAT、Direct Bias 和 MAC 等现有度量方法由于结构性缺陷,未能满足关键理论要求,特别是可比性与可信度。
- SAME 与偏差均值的基准真实偏差之间表现出显著相关性(r = 0.21),在该方面优于所有其他度量方法。
- SAME 在子集选择方面表现出更优的鲁棒性,其平均偏差差异仅为 WEAT 的十分之一,表明在数据采样变化下具有更高的稳定性。
- SAME 的刻板印象变体与去掩蔽偏差显著相关(p < 0.05),在检测刻板印象关联方面优于 WEAT 和其他度量方法。
- SAME 的偏斜变体是唯一与均值偏差显著相关的度量方法,凸显其在检测系统性方向偏差方面的独特能力。
- 没有任何一种现有的基于余弦的度量方法能完全捕捉所有形式的偏差,强调了结合下游任务公平性度量进行互补评估的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。