QUICK REVIEW

[논문 리뷰] Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis

Nikolay Petrov, Gregory Serapio‐García|arXiv (Cornell University)|2024. 05. 12.

Artificial Intelligence in Law인용 수 5

한 줄 요약

연구는 GPT-3.5와 GPT-4가 일반적인 페르소나와 실리콘 페르소나를 사용하여 인간 성격 특성을 시뮬레이션하는 능력을 심리측정학적으로 평가합니다; GPT-4는 일반 프롬프트에서 일부 심리측정학적 가능성을 보이나 두 모델 모두 잠재 특성을 신뢰성 있게 시뮬레이션하는 데 실패하며, 특히 실리콘 페르소나에서 그렇습니다.

ABSTRACT

The humanlike responses of large language models (LLMs) have prompted social scientists to investigate whether LLMs can be used to simulate human participants in experiments, opinion polls and surveys. Of central interest in this line of research has been mapping out the psychological profiles of LLMs by prompting them to respond to standardized questionnaires. The conflicting findings of this research are unsurprising given that mapping out underlying, or latent, traits from LLMs' text responses to questionnaires is no easy task. To address this, we use psychometrics, the science of psychological measurement. In this study, we prompt OpenAI's flagship models, GPT-3.5 and GPT-4, to assume different personas and respond to a range of standardized measures of personality constructs. We used two kinds of persona descriptions: either generic (four or five random person descriptions) or specific (mostly demographics of actual humans from a large-scale human dataset). We found that the responses from GPT-4, but not GPT-3.5, using generic persona descriptions show promising, albeit not perfect, psychometric properties, similar to human norms, but the data from both LLMs when using specific demographic profiles, show poor psychometrics properties. We conclude that, currently, when LLMs are asked to simulate silicon personas, their responses are poor signals of potentially underlying latent traits. Thus, our work casts doubt on LLMs' ability to simulate individual-level human behaviour across multiple-choice question answering tasks.

연구 동기 및 목표

GPT-3.5와 GPT-4가 표준화된 지표를 사용하여 인간 심리 프로필을 시뮬레이션할 수 있는지 평가합니다.
일반적 프롬프트와 실리콘 프롬 prompts의 경우 LLM 응답의 신뢰도와 타당성을 평가합니다.
특성 및 관련 구성에 대한 성격에 대한 대규모 인간 기준 데이터셋과 LLM 응답을 비교합니다.

제안 방법

두 가지 페르소나 유형(일반적(무작위 짧은 설명) 및 실리콘(인구통계 기반))으로 두 개의 OpenAI 모델(GPT-3.5 및 GPT-4)을 프롬프트합니다.
239,200개의 프롬프트에서 Big Five Inventory 및 여덟 가지 관련 성격 측정을 포함하는 104항 배터리를 관리합니다.
응답 텍스트를 토큰 길이 제한 내 첫 자리 숫자를 취해 숫자 항목 값을 추출하는 방식으로 처리합니다.
Cronbach의 알파 및 관련 지수를 사용해 신뢰성을 평가하고, 요인 간 상관 및 기준 타당도 상관을 통해 구성 타당성을 평가하며, 확인적 요인 분석을 수행합니다.

실험 결과

연구 질문

RQ1GPT-3.5와 GPT-4가 일반적 및 실리콘 프롬프팅 하에서 Big Five 및 관련 특성 척도를 신뢰성과 타당성을 갖춘 형태로 제시할 수 있나요?
RQ2실리콘 페르소나가 일반 페르소나에 비해 잠재 특성의 심리측정학적으로 타당한 표현을 제공하나요?
RQ3LLM 기반 특성 프로필이 신뢰성, 타당성 및 요인 구조 측면에서 대규모 인간 기준과 어떻게 비교되나요?

주요 결과

일반적 페르소나를 사용할 때 대부분의 하위척도에서 내부 일관성 수용 가능성(α ≥ .70)이 나타나고, GPT-3.5의 일부 하위척도에서 다소 다르게 보이는 반면, 실리콘 페르소나는 두 모델 모두에서 신뢰도가 낮게 나타납니다.
LLMs는 인간보다 Big Five 특성 간 상관이 더 높은 경향이 있어 구별 타당도가 감소하며, 특히 일반 프롬프트에서 그렇고, 실리콘 프롬프트는 더 많은 모호성을 보입니다.
일반 프롬프트 데이터에 대한 기준 타당도는 더 강하고, GPT-4가 GPT-3.5보다 더 잘 수행하는 반면 실리콘 프롬프트 데이터는 외부 기준과의 상관이 크게 약합니다.
확인적 요인 분석은 LLM 데이터의 구조 타당성이 좋지 않음을 시사합니다; Big Five 구조는 재현이 신뢰성 있게 되지 않으며, 특히 실리콘 프롬프팅 및/또는 GPT-4 일반 프롬프팅에서 그렇습니다.
특성 편향 분석은 GPT-4가 대체로 GPT-3.5와 비슷한 평균 편향을 보이나 동의성(Agreeableness)에서 소규모이지만 유의한 차이가 있으며, 편향은 인구통계학이 아니라 특정 성격 특성과 관련이 있습니다.
모델 간에 GPT-4가 일부 심리측정학적 속성에서 GPT-3.5보다 우수한 경향이 있지만 두 모델 모두 작업 전반에 걸쳐 잠재적 인간 특성을 안정적으로 모방하지는 못합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.