[论文解读] Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models
本文通过用性别与宗教、性取向、族裔、政治倾向和大陆姓名起源的交叉身份提示来对开箱即用的 GPT-2 模型在职业方面的偏见进行分析,并将预测结果与美国劳动力市场数据进行比较。
The capabilities of natural language models trained on large-scale data have increased immensely over the past few years. Open source libraries such as HuggingFace have made these models easily available and accessible. While prior research has identified biases in large language models, this paper considers biases contained in the most popular versions of these models when applied `out-of-the-box' for downstream tasks. We focus on generative language models as they are well-suited for extracting biases inherited from training data. Specifically, we conduct an in-depth analysis of GPT-2, which is the most downloaded text generation model on HuggingFace, with over half a million downloads per month. We assess biases related to occupational associations for different protected categories by intersecting gender with religion, sexuality, ethnicity, political affiliation, and continental name origin. Using a template-based data collection pipeline, we collect 396K sentence completions made by GPT-2 and find: (i) The machine-predicted jobs are less diverse and more stereotypical for women than for men, especially for intersections; (ii) Intersectional interactions are highly relevant for occupational associations, which we quantify by fitting 262 logistic models; (iii) For most occupations, GPT-2 reflects the skewed gender and ethnicity distribution found in US Labor Bureau data, and even pulls the societally-skewed distribution towards gender parity in cases where its predictions deviate from real labor market observations. This raises the normative question of what language models should learn - whether they should reflect or correct for existing inequalities.
研究动机与目标
- 评估是否存在可能伤害边缘群体的流行的开箱即用生成式语言模型所表现出的交叉性职业偏见。
- 量化性别及其交叉属性如何影响 GPT-2 的预测职业。
- 将 GPT-2 的职业预测与现实世界的美国劳动力市场分布进行比较,以理解一致性或背离。
- 为探测生成模型中的交叉性偏见提供数据收集与分析方案。
提出的方法
- 使用基于模板的数据收集管道,结合特定身份提示和基于姓名的提示,生成 396K 条 GPT-2 的句子完成。
- 使用 Stanford CoreNLP 的 NER 从生成的句子中提取职业,以构建职业标记的单热(one-hot)频率矩阵。
- 应用一个下界阈值(总调用的 0.25%),将分析聚焦于高频职业,并拟合带有交叉作用项的逻辑回归模型以预测 p(job|X,Y)。
- 以基线参考组(男性)为参照,并为女性及每个交叉类别加入虚拟变量,以及交互项,以评估额外的可解释性。
- 将模型预测与 2019 年美国劳工统计局的职业份额进行比较,并用一个缩放因子调整预测以考虑人口分布。
- 通过在 XLNet 上复现结果并进行超参数(如 top_k 和温度)消融来评估模型鲁棒性。
实验结果
研究问题
- RQ1这些交叉属性(性别结合民族、宗教、性取向、政治倾向或大陆姓名起源)是否会显著改变 GPT-2 的开箱职业联想?
- RQ2这些交叉效应在预测返回职业时相对于仅有性别的主效应,带来多大程度的预测能力提升?
- RQ3GPT-2 的职业预测与美国劳动市场在性别-民族交叉方面的分布有何对比?
主要发现
- GPT-2 对女性的职业联想不那么多样且更具刻板印象,并且在各交叉点上女性的职业聚类性更高。
- 262 次逻辑回归分析显示,女性哑变量在大多数情况下具有显著性(尤在民族与宗教方面显著),平均使 McFadden 的 R2 增加约 3.3 个百分点,表明女性解释了预测中的额外变异。
- 在大约三分之一的回归中,交互作用显著,且在不同交叉点的影响各异,表明某些组合(如女性与特定民族或性取向)会改变预测的职业。
- 预测的性别-民族职业分布与美国人口份额高度一致,但 GPT-2 倾向低估极端情况并在高职业的女性聚类上过度预测。
- 在大多数职业上,GPT-2 反映了美国劳动力市场的偏斜,在某些情况下趋向性别平衡,这对模型应当 Reflect 还是纠正社会偏见提出了规范性问题。
- 与美国数据对比时,GPT-2 在如服务员和护士等职业上高估女性、在高度分隔的角色中低估女性,显示出对刻板印象的偏向,而并非完全错配的分布。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。