[论文解读] Gender Bias in Large Language Models across Multiple Languages
本文提出三种定量测量来评估多语言LLM输出中的性别偏见,并在所研究的语言中报告了显著偏见。它分析了描述性词汇选择、性别化角色预测以及对话主题偏见,使用 GPT-3/4 家族模型。
With the growing deployment of large language models (LLMs) across various applications, assessing the influence of gender biases embedded in LLMs becomes crucial. The topic of gender bias within the realm of natural language processing (NLP) has gained considerable focus, particularly in the context of English. Nonetheless, the investigation of gender bias in languages other than English is still relatively under-explored and insufficiently analyzed. In this work, We examine gender bias in LLMs-generated outputs for different languages. We use three measurements: 1) gender bias in selecting descriptive words given the gender-related context. 2) gender bias in selecting gender-related pronouns (she/he) given the descriptive words. 3) gender bias in the topics of LLM-generated dialogues. We investigate the outputs of the GPT series of LLMs in various languages using our three measurement methods. Our findings revealed significant gender biases across all the languages we examined.
研究动机与目标
- 由于多样化的指令和文化背景,推动研究在多语言 LLM 中超越英语的性别偏见的必要性。
- 引入三种互补的偏见测量,以捕捉词汇、代词-性别和对话主题偏见。
- 将这些测量应用于跨多语言的 LLM 输出,以比较偏见模式并为去偏见工作提供信息。
提出的方法
- 定义三种偏见测量:(1) 描述性词汇选择的偏见 (P(A|G));(2) 性别化角色选择的偏见 (P(G|A));(3) 对话主题的偏见(跨性别对话的情感/分歧)。
- 作为经验估计,从频率计算差异影响(DI)分数:DI_A(a) = (C_f(a)/N_f) / (C_m(a)/N_m) 和 DI_G(a') = (C_f(a')/N_f) / (C_m(a')/N_m)。
- 使用提示来引出男性/女性情境、形容词和对话的LLM输出;分析词汇共现、代词预测和主题分布。
- 在多语言中使用 GPT-3/4 家族模型进行评估(并在附录中报告对 LLaMA 的额外结果)。
- 将英文描述性词汇列表翻译成目标语言,并在适用的地方处理性别化形容词形式。
实验结果
研究问题
- RQ1LLMs 是否在不同语言中对男性与女性描述具有差异性描述性词汇关联?
- RQ2描述性词汇是否影响在回答中预测性别化代词(如 he 与 she)的可能性?
- RQ3LLMs 生成的对话在语言与性别对上是否显示主题或情感的性别基础分歧?
- RQ4不同语言在不同类型与文化背景下,性别偏见模式如何变化?
主要发现
- 在所有语言和模型中,描述词与性别的共现显示性别偏见。
- 在给定描述性提示的预测性别角色时也观察到偏见,表明在形容词语境中存在性别化预期。
- 对话主题在性别对配对中的情感和主题分布呈现差异,反映对话内容中的性别偏见。
- 偏见模式因语言和描述类型而异,凸显了语言感知的去偏见和评估方法的必要性。
- 本研究提供了一个可推广到性别以外的其他社会维度(如种族、族裔)的框架。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。