[논문 리뷰] Can Large Language Models Capture Public Opinion about Global Warming? An Empirical Assessment of Algorithmic Fidelity and Bias
이 연구는 대형 언어 모델이 전 세계적 고온 현상에 대한 여론을 얼마나 잘 시뮬레이션할 수 있는지 실증적으로 평가하고, 인구 통계 및 공변량에 조건을 부여하는 것의 중요성을 강조하며 특정 그룹의 관점을 추정하는 편향을 드러낸다.
Large language models (LLMs) have demonstrated their potential in social science research by emulating human perceptions and behaviors, a concept referred to as algorithmic fidelity. This study assesses the algorithmic fidelity and bias of LLMs by utilizing two nationally representative climate change surveys. The LLMs were conditioned on demographics and/or psychological covariates to simulate survey responses. The findings indicate that LLMs can effectively capture presidential voting behaviors but encounter challenges in accurately representing global warming perspectives when relevant covariates are not included. GPT-4 exhibits improved performance when conditioned on both demographics and covariates. However, disparities emerge in LLM estimations of the views of certain groups, with LLMs tending to underestimate worry about global warming among Black Americans. While highlighting the potential of LLMs to aid social science research, these results underscore the importance of meticulous conditioning, model selection, survey question format, and bias assessment when employing LLMs for survey simulation. Further investigation into prompt engineering and algorithm auditing is essential to harness the power of LLMs while addressing their inherent limitations.
연구 동기 및 목표
- 대형 언어 모델(LLMs)이 전 세계적 고온 현상에 대한 설문 응답을 시뮬레이션하는 알고리즘적 충실도를 평가한다.
- LLMs를 인구 통계 및 심리적 공변량으로 조건화하는 것이 충실도에 어떤 영향을 미치는지 결정한다.
- 인구 통계학적 그룹 간 LLM 기반 공론 표현의 편향을 식별한다.
제안 방법
- 인구 통계 및/또는 심리적 공변량으로 LLM을 조건화하여 전국적으로 대표적인 기후 변화 설문 응답을 시뮬레이션한다.
- 공적 여론 및 투표 행동에 대한 실제 설문 데이터와 LLM 성능을 비교한다.
- 다양한 조건화 체계(인구 통계 vs. 공변량 vs. 둘 다)에서 GPT-4의 성능을 비교한다.
- 특정 그룹(예를 들어 흑인 미국인) 및 기후 변화에 대한 의견에 대한 LLM 추정치의 편향을 분석한다.
실험 결과
연구 질문
- RQ1설문 데이터를 기반으로 LLM이 대통령 선거 투표 행태를 정확하게 포착할 수 있는가?
- RQ2관련 공변량이 포함될 때 LLM이 기후 변화에 대한 관점을 충실하게 나타내는가?
- RQ3인구 통계 및 공변량 모두를 조건화하는 것이 인구 통계 또는 공변량만을 조건화하는 것보다 알고리즘적 충실도를 향상시키는가?
- RQ4기후 변화에 대한 의견에서 인구통계 그룹 간 LLM 추정에 어떤 편향이 나타나는가?
주요 결과
- LLMs는 대통령 선거 투표 행태를 효과적으로 포착할 수 있다.
- 관련 공변량이 누락되면 LLM은 기후 변화에 대한 관점을 정확하게 나타내기 어려운 편이 있다.
- GPT-4는 인구 통계와 공변량 모두로 조건화되었을 때 충실도가 향상된다.
- 특정 그룹에서 LLM 추정치에 차이가 나타나며, 흑인 미국인 사이에서 기후 변화에 대한 우려를 과소평가하는 경향이 있다.
- 신뢰할 수 있는 LLM 기반 설문 시뮬레이션을 위해 신중한 조건화, 모델 선택, 설문 문항 형식, 편향 평가가 중요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.