Skip to main content
QUICK REVIEW

[论文解读] Measuring Implicit Bias in Explicitly Unbiased Large Language Models

Xuechunzi Bai, Angelina Wang|arXiv (Cornell University)|Feb 6, 2024
Natural Language Processing Techniques被引用 14
一句话总结

本文提出基于提示的LLM隐性偏见测量(LLM Implicit Bias)与LLM Decision Bias,用以在表面上无偏的模型中检测潜在的歧视倾向,覆盖8个模型、4个社会类别和21个刻板印象。

ABSTRACT

Large language models (LLMs) can pass explicit social bias tests but still harbor implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit subtle biases. Measuring such implicit biases can be a challenge: as LLMs become increasingly proprietary, it may not be possible to access their embeddings and apply existing bias measures; furthermore, implicit biases are primarily a concern if they affect the actual decisions that these systems make. We address both challenges by introducing two new measures of bias: LLM Implicit Bias, a prompt-based method for revealing implicit bias; and LLM Decision Bias, a strategy to detect subtle discrimination in decision-making tasks. Both measures are based on psychological research: LLM Implicit Bias adapts the Implicit Association Test, widely used to study the automatic associations between concepts held in human minds; and LLM Decision Bias operationalizes psychological results indicating that relative evaluations between two candidates, not absolute evaluations assessing each independently, are more diagnostic of implicit biases. Using these measures, we found pervasive stereotype biases mirroring those in society in 8 value-aligned models across 4 social categories (race, gender, religion, health) in 21 stereotypes (such as race and criminality, race and weapons, gender and science, age and negativity). Our prompt-based LLM Implicit Bias measure correlates with existing language model embedding-based bias methods, but better predicts downstream behaviors measured by LLM Decision Bias. These new prompt-based measures draw from psychology's long history of research into measuring stereotype biases based on purely observable behavior; they expose nuanced biases in proprietary value-aligned LLMs that appear unbiased according to standard benchmarks.

研究动机与目标

  • 在LLMs中尽管存在对齐与安全保护仍需检测隐性偏见的动机。
  • 开发两种受心理学启发的测量(LLM Implicit Bias 与 LLM Decision Bias),适用于专有模型。
  • 在多个人值对齐的LLM和广泛的刻板印象集合中评估偏见,以揭示隐藏的歧视。
  • 评估这些基于提示的测量与基于嵌入的偏见以及下游决策结果之间的关系。

提出的方法

  • 将隐式关联测试(IAT)框架改编为基于提示的LLM隐性偏见任务,从词–类别关联中产生偏见分数(bias = N(sa,Xa)/[N(sa,Xa)+N(sa,Xb)] + N(sb,Xb)/[N(sb,Xa)+N(sb,Xb)] − 1)。
  • 使用随机化的提示模板和种子Xa/Xb集合为每个类别生成多条提示,并通过自助法置信区间计算平均偏见。
  • 通过生成情境相关的相对决策(例如简历与任务分派等资料)来创建LLM决策偏见任务,以在迭代中测量有偏见决定的比例(0到1的尺度)。
  • 提示生成包括手工 crafting 与自动生成的Xa/Xb集合,每次迭代使用非同质模板以降低措辞效应。
  • 将基于提示的偏见与基于嵌入的偏见(使用 OpenAI text-embedding-3-small)进行比较,并通过回归分析分析偏见如何预测下游决策。
  • 考察八个模型(GPT-3.5-Turbo、GPT-4、Claude-3-Sonnet、Claude-3-Opus、Alpaca-7B、LLaMA2Chat-7B/13B/70B)在四个社会类别和21个刻板印象(种族、性别、宗教、健康)上的表现。

实验结果

研究问题

  • RQ1LLMs 是否在多模型和多刻板印象的基于提示的IAT式任务中表现出隐性偏见?
  • RQ2LLM决策偏见任务是否在决策中揭示与隐性偏见一致的歧视?
  • RQ3基于提示的隐性偏见与基于嵌入的偏见以及下游决策结果之间的关系如何?
  • RQ4是否存在模型规模或类别特异性的隐性与决策偏见变异?
  • RQ5相对(相对于绝对)决策提示是否更有诊断力来识别LLMs中的偏见?

主要发现

  • LLMs 在4个社会类别和21个刻板印象上显示普遍的隐性偏见;对零基线的t检验结果为 t(33,599)=76.39, p<.001。
  • 隐性偏见随模型而异;较大模型(GPT-4、GPT-3.5-Turbo、Claude-3)显示偏见更大;Alpaca-7B 与 LLaMA2Chat-7B 显示偏见较小。
  • 种族显示出最强的隐性偏见;性别与科学相关联存在显著偏见;两组名称(Asian/Hispanic)在某些测量中未显示偏见。
  • LLMs 在21个刻板印象中的19个上表现出显著的决策偏见;某些模型(Claude-3变体)表现出更高的决策偏见,而较小的模型偏见较低。
  • 决策偏见并不严格与模型规模相关;基于种族的招聘和职业相关决策显示出明显偏见;GPT-4 在示例中展示了种族-效价与性别-职业偏见的细致表现。
  • LLM隐性偏见与LLM决策偏见相关性强于嵌入偏见;在每个提示级别的逻辑回归中,隐性偏见每单位上升,歧视性决策的比值比约为2.68(p<.001)。
  • 相对性决策提示对偏见诊断比绝对性提示更具诊断力;消除相对性后偏见决策减少。
  • 基于提示的隐性偏见与嵌入偏见相关但并非冗余(提示级r ≈ .36;聚合后r ≈ .72)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。