Skip to main content
QUICK REVIEW

[论文解读] The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models

Hannah Rose Kirk, Alexander Whitefield|arXiv (Cornell University)|Apr 24, 2024
Natural Language Processing Techniques被引用 5
一句话总结

PRISM 引入一个多样化、参与式的数据集,将 1,500 名参与者分布在 75 个国家,与 21 个模型的 8,011 次实时 LLM 对话相连接,能够分析主观和跨文化对齐以及个性化效应。

ABSTRACT

Human feedback is central to the alignment of Large Language Models (LLMs). However, open questions remain about methods (how), domains (where), people (who) and objectives (to what end) of feedback processes. To navigate these questions, we introduce PRISM, a dataset that maps the sociodemographics and stated preferences of 1,500 diverse participants from 75 countries, to their contextual preferences and fine-grained feedback in 8,011 live conversations with 21 LLMs. With PRISM, we contribute (i) wider geographic and demographic participation in feedback; (ii) census-representative samples for two countries (UK, US); and (iii) individualised ratings that link to detailed participant profiles, permitting personalisation and attribution of sample artefacts. We target subjective and multicultural perspectives on value-laden and controversial issues, where we expect interpersonal and cross-cultural disagreement. We use PRISM in three case studies to demonstrate the need for careful consideration of which humans provide what alignment data.

研究动机与目标

  • 将 1,500 名参与者的社会人口统计信息与陈述偏好映射到他们在跨越 21 个模型的 8,011 次实时 LLM 对话中的情境反馈。
  • 研究参与式、具有代表性、以及个性化反馈如何塑造对齐规范与模型行为。
  • 考察对话多样性、偏好多样性与福利结果,以理解跨文化分歧与对齐中的分配效应。

提出的方法

  • 两阶段数据收集:(i) 调查,捕捉人口统计信息和偏好;(ii) 实时、模型环路中的对话,对模型输出给予细粒度、基数化的反馈。
  • 对模型回应使用基数评分量表(1-100),以允许偏好主观强度。
  • 将每个评分链接到一个化名参与者ID及其资料,以便归因和偏差分析。
  • 覆盖 21 种模型,涵盖商业和开放获取提供者,以捕捉异质的对齐规范。
  • 对话类型包括无引导、价值导向和争议导向的提示,以覆盖客观-主观光谱。
  • 伦理审查与知情同意并提供补偿;数据收集通过基于 Dynabench 的界面。

实验结果

研究问题

  • RQ1人口统计与文化因素如何影响人们在 LLMs 中主动提出的话题?
  • RQ2个体偏好与情境条件如何影响跨越多元人群的模型对齐判断?
  • RQ3在为一个人群选择偏好模型时,是否更大、更具代表性的参与者样本会产生不同的福利结果?
  • RQ4个性化和对样本产物归因的处理对理解对齐规范有何影响?

主要发现

  • 身份与人口统计信息在一定程度上预测开场话题选择,但许多话题在交叉人口统计群体中聚集。
  • 模型排名对特异性因素和对话上下文敏感,这在主观波动下挑战排行榜的稳定性。
  • 更大、更具代表性的参与者样本带来更好的分配福利结果,尤其对少数群体。
  • 该数据集使得对个性化对齐和对观点分布的多元方法摘要分析成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。