QUICK REVIEW

[论文解读] Whose Opinions Do Language Models Reflect?

Shibani Santurkar, Esin Durmus|arXiv (Cornell University)|Mar 30, 2023

Topic Modeling被引用 96

一句话总结

本论文提出 OpinionQA，用于量化语言模型在多大程度上反映或偏离美国公众舆论与人口统计群体，揭示显著错配和可控性有限。

ABSTRACT

Language models (LMs) are increasingly being used in open-ended contexts, where the opinions reflected by LMs in response to subjective queries can have a profound impact, both on user satisfaction, as well as shaping the views of society at large. In this work, we put forth a quantitative framework to investigate the opinions reflected by LMs -- by leveraging high-quality public opinion polls and their associated human responses. Using this framework, we create OpinionsQA, a new dataset for evaluating the alignment of LM opinions with those of 60 US demographic groups over topics ranging from abortion to automation. Across topics, we find substantial misalignment between the views reflected by current LMs and those of US demographic groups: on par with the Democrat-Republican divide on climate change. Notably, this misalignment persists even after explicitly steering the LMs towards particular demographic groups. Our analysis not only confirms prior observations about the left-leaning tendencies of some human feedback-tuned LMs, but also surfaces groups whose opinions are poorly reflected by current LMs (e.g., 65+ and widowed individuals). Our code and data are available at https://github.com/tatsu-lab/opinions_qa.

研究动机与目标

推动系统研究在开放式情境中语言模型反映的哪些人类观点成为必要性的重要性
利用公众意见调查创建一个可扩展的框架，用于将语言模型的回答与多元化人口群体进行比较
从 Pew Research ATP poll 构建 OpinionQA，以实现对 60 个人口统计群体的分布比较
评估各种语言模型规模和训练方案（base 与 HF-tuned）在代表性、可控性和一致性方面的表现
为负责任的部署和未来模型对齐工作提供洞见与指导

提出的方法

使用公众意见调查作为探针，通过多项选择提示提取语言模型的观点
通过分析回答选项的下一个词对数概率，将调查问题转化为语言模型的观点分布
使用 1-Wasserstein 距离比较语言模型分布与人类分布，以考虑有序的答案选项
将“代表性”定义为语言模型观点与总体或群体分布之间的平均对齐度
通过提示将语言模型引导模仿目标人口群体来评估可控性，并重新评估对齐度
通过比较语言模型在不同主题上与哪些人口群体对齐，分析主题层面的一致性

实验结果

研究问题

RQ1语言模型的默认观点是否与美国一般人口或特定人口群体的一致
RQ2在多大程度上通过提示可以引导语言模型反映所选人口群体的意见
RQ3语言模型在不同主题上的一致性如何，是否因主题而异
RQ4基线语言模型与 HF-tuned 语言模型在代表性、可控性和一致性方面有何差异

主要发现

当前的语言模型在各主题上与美国一般人口的观点存在明显错配，且在具有争议的问题上与主要人口群体之间的差异相当
HF-tuned 模型在代表一般人群方面往往不如一些基础模型，且偏向自由派、受过教育和收入较高的群体
可控性在一定程度上改善了朝向目标群体的对齐，但无法解决代表性差距；在大多数群体中，改进有限
某些群体（如65岁及以上、摩门教徒、鳏居者）被所有模型代表性不足，反映出人口覆盖的缺口
语言模型的观点并非在所有主题上均与相同群体对齐，呈现情境相关的偏斜
Text-davinci-003 在某些主题上呈现高度模态性和保守性模式，表明对主导观点的过度代表而非多样化观点

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。