Skip to main content
QUICK REVIEW

[论文解读] The Impossibility of Fair LLMs

Jacy Reese Anthis, Kristian Lum|arXiv (Cornell University)|May 28, 2024
Copyright and Intellectual Property被引用 7
一句话总结

本文认为现有的公平框架不能泛化到大型语言模型,并且实现普遍公平是不可行的;它提出基于情境的指南和迭代、参与式设计以实现对LLMs的公平。

ABSTRACT

The rise of general-purpose artificial intelligence (AI) systems, particularly large language models (LLMs), has raised pressing moral questions about how to reduce bias and ensure fairness at scale. Researchers have documented a sort of "bias" in the significant correlations between demographics (e.g., race, gender) in LLM prompts and responses, but it remains unclear how LLM fairness could be evaluated with more rigorous definitions, such as group fairness or fair representations. We analyze a variety of technical fairness frameworks and find inherent challenges in each that make the development of a fair LLM intractable. We show that each framework either does not logically extend to the general-purpose AI context or is infeasible in practice, primarily due to the large amounts of unstructured training data and the many potential combinations of human populations, use cases, and sensitive attributes. These inherent challenges would persist for general-purpose AI, including LLMs, even if empirical challenges, such as limited participatory input and limited measurement methods, were overcome. Nonetheless, fairness will remain an important type of model evaluation, and there are still promising research directions, particularly the development of standards for the responsibility of LLM developers, context-specific evaluations, and methods of iterative, participatory, and AI-assisted evaluation that could scale fairness across the diverse contexts of modern human-AI interaction.

研究动机与目标

  • 评估现有 ML 公平框架在 LLMs 上的应用情况并识别根本不兼容之处。
  • 证明在广泛的多模态、通用模型上应用群体公平、公平表征等相关概念的局限性。
  • 提出以特定用例和情境为焦点的现实可实现的公平目标,而非普遍保证。
  • 倡导开发者责任和迭代、参与式设计,以降低 LLM 部署中的伤害。

提出的方法

  • 在 LLMs 的背景下对现有的公平框架(如群体公平和公平表征)进行批判性综述。
  • 论证由于数据非结构化及普遍存在的敏感属性,FTU 对 LLMs 不可行。
  • 逻辑分析显示将许多公平性指标应用于跨任务与人群的 LLMs 时不适用或不可行。
  • 制定强调情境、开发者责任和利益相关者参与的指南。
  • 讨论对训练数据筛选、指令微调、提示工程、个性化和可解释性工具的影响。

实验结果

研究问题

  • RQ1当应用于 LLMs 时,现有公平框架有哪些局限性?
  • RQ2群体公平、反事实公平或公平表征能否在逻辑上或实际地扩展至广泛的多模态 LLM 情境?
  • RQ3在实现公平和降低伤害方面,针对具体用例的现实可行指南是什么?
  • RQ4包括开发者和用户在内的相关方应如何参与迭代设计过程以解决 LLM 公平性问题?

主要发现

  • 由于能够从文本中推断属性,LLMs 上对敏感属性的不了解不可行。
  • 公平性保证不能跨越 LLMs所遇到的多样数据、任务与人群而泛化。
  • 群体公平与相关指标在为 LLM 设定基线人群方面存在困难,且无法确保跨情境的公平。
  • 去偏见化单一概念往往会扭曲其他情境特定的关系;普遍的去偏见化方法不切实际。
  • 公平性不在模型管道中可组合,这表明需要通过模型组合或指导来实现情境特定的公平。
  • 出现三条指南:强调情境、分配开发者责任,以及通过迭代、参与式设计来降低伤害。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。