[論文レビュー] Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis
本研究は、一般的なペルソナとシリコンペルソナを用いて、GPT-3.5とGPT-4 が人間の性格特性を模倣する能力を心理測定的に評価する。GPT-4 は一般的なプロンプトでいくつかの心理測定的可能性を示すが、両モデルとも潜在的特性を信頼性高く模倣できず、特にシリコンペルソナでは困難である。
The humanlike responses of large language models (LLMs) have prompted social scientists to investigate whether LLMs can be used to simulate human participants in experiments, opinion polls and surveys. Of central interest in this line of research has been mapping out the psychological profiles of LLMs by prompting them to respond to standardized questionnaires. The conflicting findings of this research are unsurprising given that mapping out underlying, or latent, traits from LLMs' text responses to questionnaires is no easy task. To address this, we use psychometrics, the science of psychological measurement. In this study, we prompt OpenAI's flagship models, GPT-3.5 and GPT-4, to assume different personas and respond to a range of standardized measures of personality constructs. We used two kinds of persona descriptions: either generic (four or five random person descriptions) or specific (mostly demographics of actual humans from a large-scale human dataset). We found that the responses from GPT-4, but not GPT-3.5, using generic persona descriptions show promising, albeit not perfect, psychometric properties, similar to human norms, but the data from both LLMs when using specific demographic profiles, show poor psychometrics properties. We conclude that, currently, when LLMs are asked to simulate silicon personas, their responses are poor signals of potentially underlying latent traits. Thus, our work casts doubt on LLMs' ability to simulate individual-level human behaviour across multiple-choice question answering tasks.
研究の動機と目的
- 標準化された測定を用いて、GPT-3.5とGPT-4 が人間の心理的プロファイルを模倣できるかを評価する。
- 一般的なプロンプトとシリコン・プロンプティングの下で、LLMの応答の信頼性と妥当性を評価する。
- 性格および関連構成概念に関する大規模な人間ベースラインデータセットとLLMの応答を比較する。
提案手法
- 2つのOpenAIモデル(GPT-3.5とGPT-4)に、2つのペルソナタイプを用いてプロンプトする:generic(ランダムな短い説明)と silicon(人口統計に基づく)。
- Big Five Inventoryを含む104項目バッテリーを、239,200件のプロンプトにわたり実施する。
- トークン制限付き応答の最初の数字を取って、数値の項目回答を抽出することでテキスト応答を処理する。
- Cronbach’s αおよび関連指標で信頼性を評価する;因子間相関および基準関連の相関を用いて構成概念の妥当性を評価する;確証的因子分析を実施する。
実験結果
リサーチクエスチョン
- RQ1generic および silicon prompting の下で、GPT-3.5とGPT-4は信頼性が高く妥当なBig Fiveおよび関連特性の測定を生成できるか?
- RQ2シリコンペルソナは、一般的なペルソナと比較して潜在的特性を心理測定的に妥当な表現として示すか?
- RQ3信頼性・妥当性・因子構造の観点から、LLMベースの特性プロファイルは大規模な人間ベースラインとどのように比較されるか?
主な発見
- 一般的なペルソナを用いたGPT-4は、ほとんどのサブスケールで内部一貫性が許容範囲(α ≥ .70)を示す一方、GPT-3.5は一部のサブスケールでそうでない;シリコンペルソナは両モデルで信頼性が低い。
- LLMは人間よりBig Five特性間の相関が高くなる傾向があり、特に一般的プロンプトで判別妥当性の低下を示す;シリコンプロンプトはより曖昧さを示す。
- 一般的プロンプトデータの基準妥当性は高く、GPT-4はGPT-3.5より優れている。一方、シリコンプロンプトデータは外部基準との相関が有意に低い。
- 確証的因子分析は、LLMデータの構造妥当性が乏しいことを示す;Big Five構造は信頼性高く回復されず、特にシリコン prompting および/または GPT-4 の一般的 prompting で顕著。
- 特性バイアス分析は、平均バイアスとしてはGPT-4は概してGPT-3.5と類似しているが、協調性で小さく有意な差がある;バイアスは人口統計よりも特定の性格特性に関連している。
- モデル間では、GPT-4は一部の心理測定特性でGPT-3.5より優れる傾向だが、いずれのモデルもタスク全体で潜在的な人間特性を信頼性高く模倣できない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。