[论文解读] "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters
本文分析由 LLMs(ChatGPT 与 Alpaca)生成的信函中的性别偏见,涵盖词汇内容与语言风格,并探讨在基于上下文的提示中偏见如何传播到幻觉内容。
Large Language Models (LLMs) have recently emerged as an effective tool to assist individuals in writing various types of content, including professional documents such as recommendation letters. Though bringing convenience, this application also introduces unprecedented fairness concerns. Model-generated reference letters might be directly used by users in professional scenarios. If underlying biases exist in these model-constructed letters, using them without scrutinization could lead to direct societal harms, such as sabotaging application success rates for female applicants. In light of this pressing issue, it is imminent and necessary to comprehensively study fairness issues and associated harms in this real-world use case. In this paper, we critically examine gender biases in LLM-generated reference letters. Drawing inspiration from social science findings, we design evaluation methods to manifest biases through 2 dimensions: (1) biases in language style and (2) biases in lexical content. We further investigate the extent of bias propagation by analyzing the hallucination bias of models, a term that we define to be bias exacerbation in model-hallucinated contents. Through benchmarking evaluation on 2 popular LLMs- ChatGPT and Alpaca, we reveal significant gender biases in LLM-generated recommendation letters. Our findings not only warn against using LLMs for this application without scrutinization, but also illuminate the importance of thoroughly studying hidden biases and harms in LLM-generated professional documents.
研究动机与目标
- 激发对使用 LLM 生成专业推荐信的公平性关注。
- 在两种生成设置:Context-Less Generation (CLG) 与 Context-Based Generation (CBG) 定义并衡量性别偏见。
- 调查在生成信件中的词汇内容、语言风格以及幻觉偏见。
- 使用两种流行 LLM(ChatGPT 与 Alpaca)进行偏见模式基准测试,并提出基于社会科学文献的评估流程。
提出的方法
- 两种生成设置:Context-Less Generation (CLG) 与 Context-Based Generation (CBG)。
- 将偏见定义分为词汇内容(单词选择)与语言风格(正式度、积极性、代理性)。
- 使用性别刻板特质词库对词汇偏见进行 Odds Ratio (OR) 分析。
- 三个语言风格指标:正式度、积极性、代理性语言,使用 t 检验评估性别差异。
- 通过 Context-Sentence NLI 进行幻觉偏见检测,将幻觉内容与完整生成文本进行比较。
- 使用基于模型和提示的实验,在 ChatGPT 与 Alpaca 上实现评估流程。

实验结果
研究问题
- RQ1在 CLG 与 CBG 设置下,LLM 生成的推荐信是否在词汇内容与语言风格上表现出性别偏见?
- RQ2偏见如何在词汇选择与风格特征中表现,幻觉内容是否传播或放大这些偏见?
- RQ3ChatGPT 与 Alpaca 在专业信件生成及幻觉中是否同样易受性别偏见影响?
主要发现
- LLMs 显示性别偏见的词汇显著性,男性相关特征在男性信件中更突出,女性特征在女性信件中更突出。
- 语言风格偏见表明男性在各模型上获得更多正式、积极和具有代理性的语言,与先前社会科学研究结果一致。
- 幻觉分析揭示生成的幻觉内容存在性别偏见,在 ChatGPT 与 Alpaca 中偏见得到传播和放大。
- 带有传记信息的基于上下文的生成(CBG)仍然产生性别化语言模式,表明偏见超出输入描述。
- 研究提供了一个可扩展的框架(测试环境、度量、提示),用于识别和量化 LLM 生成的专业文档中的偏见。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。