[論文レビュー] Can Large Language Models Capture Public Opinion about Global Warming? An Empirical Assessment of Algorithmic Fidelity and Bias
要約: 本論文は、巨大言語モデルが気候変動に関する世論をどれだけ正確に模倣できるかを実証的に評価し、人口統計と共変量での条件づけの重要性を強調するとともに、特定の集団の見解を推定する際の偏りを明らかにしている。
Large language models (LLMs) have demonstrated their potential in social science research by emulating human perceptions and behaviors, a concept referred to as algorithmic fidelity. This study assesses the algorithmic fidelity and bias of LLMs by utilizing two nationally representative climate change surveys. The LLMs were conditioned on demographics and/or psychological covariates to simulate survey responses. The findings indicate that LLMs can effectively capture presidential voting behaviors but encounter challenges in accurately representing global warming perspectives when relevant covariates are not included. GPT-4 exhibits improved performance when conditioned on both demographics and covariates. However, disparities emerge in LLM estimations of the views of certain groups, with LLMs tending to underestimate worry about global warming among Black Americans. While highlighting the potential of LLMs to aid social science research, these results underscore the importance of meticulous conditioning, model selection, survey question format, and bias assessment when employing LLMs for survey simulation. Further investigation into prompt engineering and algorithm auditing is essential to harness the power of LLMs while addressing their inherent limitations.
研究の動機と目的
- 気候変動に関する調査回答を模擬する際の巨大言語モデル(LLMs)のアルゴリズム的忠実度を評価する。
- LLMsを人口統計と心理的共変量で条件づけることが忠実度に与える影響を解明する。
- 人口統計グループごとのLLMベースの公的意見表現に偏りが存在するかを特定する。
提案手法
- LLMを人口統計および/または心理学的共変量で条件づけ、全国規模の気候変動に関する世論調査回答を模擬する。
- 実際の世論データと投票行動データに対するLLMの性能を評価する。
- 異なる条件付け regime(人口統計、共変量、両方)でGPT-4の性能を比較する。
- Black Americans など特定のグループの推定バイアスと地球温暖化に関する意見を分析する。
実験結果
リサーチクエスチョン
- RQ1LLMsは調査データに基づく大統領選挙投票行動を正確に捉えられるか。
- RQ2関連共変量が含まれる場合、LLMsは地球温暖化の見解を忠実に表現できるか。
- RQ3人口統計と共変量の両方で条件づけることは、人口統計または共変量のみによる条件づけよりアルゴリズム的忠実度を改善するか。
- RQ4地球温暖化の意見に関する人口統計グループ間でどのような偏りがLLM推定に生じるか。
主な発見
- LLMsは大統領投票行動を効果的に捉えることができる。
- 関連共変量が省略されると、地球温暖化に関する見解を正確に表現するのが難しい。
- 人口統計と共変量の両方で条件づけられたとき、GPT-4の忠実度が向上する。
- 特定のグループにおいて推定に格差が生じ、Black Americansの地球温暖化に対する不安が過小評価される傾向がある。
- 信頼性の高いLLMベースの世論調査シミュレーションには、慎重な条件づけ、モデル選択、調査質問形式、およびバイアス評価が不可欠である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。