[论文解读] Can Large Language Models Capture Public Opinion about Global Warming? An Empirical Assessment of Algorithmic Fidelity and Bias
该论文通过实证评估大型语言模型在模拟全球变暖公共舆论方面的能力,强调在条件化为人口统计特征与协变量时的重要性,并揭示对某些群体观点估计中的偏差。
Large language models (LLMs) have demonstrated their potential in social science research by emulating human perceptions and behaviors, a concept referred to as algorithmic fidelity. This study assesses the algorithmic fidelity and bias of LLMs by utilizing two nationally representative climate change surveys. The LLMs were conditioned on demographics and/or psychological covariates to simulate survey responses. The findings indicate that LLMs can effectively capture presidential voting behaviors but encounter challenges in accurately representing global warming perspectives when relevant covariates are not included. GPT-4 exhibits improved performance when conditioned on both demographics and covariates. However, disparities emerge in LLM estimations of the views of certain groups, with LLMs tending to underestimate worry about global warming among Black Americans. While highlighting the potential of LLMs to aid social science research, these results underscore the importance of meticulous conditioning, model selection, survey question format, and bias assessment when employing LLMs for survey simulation. Further investigation into prompt engineering and algorithm auditing is essential to harness the power of LLMs while addressing their inherent limitations.
研究动机与目标
- 评估大型语言模型(LLMs)在模拟关于全球变暖的调查问卷回答时的算法保真度。
- 确定在将LLMs按人口统计特征和心理学协变量进行条件化时对保真度的影响。
- 识别在不同人口统计群体中基于LLM的公共舆论表示的偏见。
提出的方法
- 将LLM按人口统计与/或心理协变量进行条件化,以模拟具有全国代表性的气候变化调查回答。
- 基于真实调查数据的公众意见与投票行为,对LLM表现进行评估。
- 比较在不同条件化方案(按人口统计、按协变量、两者都按)下的GPT-4表现。
- 分析LLM在对特定群体(如美国黑人)以及全球变暖观点的估计中的偏差。
实验结果
研究问题
- RQ1LLMs是否能够基于调查数据准确捕捉总统投票行为?
- RQ2在包含相关协变量时,LLMs是否如实代表全球变暖观点?
- RQ3在同时对人口统计与协变量进行条件化是否比仅对人口统计或协变量进行条件化更能提高算法保真度?
- RQ4在全球变暖观点的人口统计群体估计中出现了哪些偏差?
主要发现
- LLMs能够有效捕捉总统投票行为。
- 在未包含相关协变量时,LLMs在准确表示全球变暖观点方面存在困难。
- 当同时对人口统计和协变量进行条件化时,GPT-4的保真度有所提高。
- 在某些群体的LLM估计中存在差异,黑人民众对全球变暖的担忧程度被低估。
- 为了实现可靠的基于LLM的调查模拟,需谨慎的条件化、模型选择、问卷格式设计以及偏差评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。