[論文レビュー] Large Language Models Can Infer Psychological Dispositions of Social Media Users
本研究は、GPT-3.5およびGPT-4がFacebookのステータス更新からゼロショット設定でビッグファイブ性格特性を推定できることを示し、自己報告との平均相関が約 .29 に達し、性別および年齢の偏りを示す。
Large Language Models (LLMs) demonstrate increasingly human-like abilities across a wide variety of tasks. In this paper, we investigate whether LLMs like ChatGPT can accurately infer the psychological dispositions of social media users and whether their ability to do so varies across socio-demographic groups. Specifically, we test whether GPT-3.5 and GPT-4 can derive the Big Five personality traits from users' Facebook status updates in a zero-shot learning scenario. Our results show an average correlation of r = .29 (range = [.22, .33]) between LLM-inferred and self-reported trait scores - a level of accuracy that is similar to that of supervised machine learning models specifically trained to infer personality. Our findings also highlight heterogeneity in the accuracy of personality inferences across different age groups and gender categories: predictions were found to be more accurate for women and younger individuals on several traits, suggesting a potential bias stemming from the underlying training data or differences in online self-expression. The ability of LLMs to infer psychological dispositions from user-generated text has the potential to democratize access to cheap and scalable psychometric assessments for both researchers and practitioners. On the one hand, this democratization might facilitate large-scale research of high ecological validity and spark innovation in personalized services. On the other hand, it also raises ethical concerns regarding user privacy and self-determination, highlighting the need for stringent ethical frameworks and regulation.
研究の動機と目的
- LLMsがソーシャルメディアのテキストから明示的な訓練なしでビッグファイブ性格特性を推定できるかを評価する。
- Facebookのステータス更新を用いたGPT-3.5とGPT-4のゼロショット推論性能を評価する。
- LLMベースの推論における潜在的な人口統計バイアス(性別と年齢)を検討する。
提案手法
- IPIP自己報告と少なくとも200件のFacebookステータス更新を持つ1000人のMyPersonality参加者を使用する。
- 各ユーザーの直近200件のステータス更新を連結し、Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticismを1–5スケールで評価するようGPT-3.5とGPT-4に促す。
- 更新を20メッセージ単位のチャンクで処理し、3回の評価ラウンドを平均して総合的な特性スコアを得る。
- LLM推定スコアを自己報告IPIPスコアとピアソン相関で比較する。
- 残差分析を通じて性別・年齢グループ間の精度差を評価する。
実験結果
リサーチクエスチョン
- RQ1GPT-3.5とGPT-4はソーシャルメディアテキストからゼロショット設定でビッグファイブ性格特性を推定できるか?
- RQ2推定された特性は自己報告された特性スコアとどのように相関し、特性とモデルバージョンによってどう変化するか?
- RQ3性別や年齢はLLMベースの性格推論の精度やバイアスに影響を与えるか?
- RQ4入力テキスト量は推論精度にどのように影響するか?
主な発見
- GPT-3.5は平均相関r = .27を達成; GPT-4はr = .31を達成(全特性で)。
- 特性レベルの相関は、Openness (.28 / .33)、Extraversion (.29 / .32)、Agreeableness (.30 / .32) がGPT-3.5 / GPT-4でそれぞれ最大だった。
- Conscientiousnessは低めの相関 (.22 / .26)、Neuroticismは (.26 / .29) だった。
- 全体として、GPT-4はGPT-3.5よりより正確な推定を提供したが、修正後の統計的有意性はどの特性でも有意ではなかった。
- 女性は複数の特性で推定スコアが高く、男性の推定が残差が大きいことを示唆し、複数の特性で男性の精度が低いことを示している。
- 年齢分析は、年長のユーザーが自己報告のConscientiousnessおよびNeuroticism関連の差を示すことを示し、モデルに依存して一部の特性で年長ユーザーの精度が低下することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。