Skip to main content
QUICK REVIEW

[論文レビュー] Revisiting the Reliability of Psychological Scales on Large Language Models

Jen-tse Huang, Wenxiang Jiao|arXiv (Cornell University)|May 31, 2023
Topic Modeling被引用数 10
ひとこと要約

本論は、人間の心理尺度、特に Big Five Inventory が、GPT-3.5-turbo に対して 2,500 の多様な設定で適用したときに信頼できるかを分析し、プロンプトの調整を通じて多様な個性を表現できることを示している。

ABSTRACT

Recent research has focused on examining Large Language Models' (LLMs) characteristics from a psychological standpoint, acknowledging the necessity of understanding their behavioral characteristics. The administration of personality tests to LLMs has emerged as a noteworthy area in this context. However, the suitability of employing psychological scales, initially devised for humans, on LLMs is a matter of ongoing debate. Our study aims to determine the reliability of applying personality assessments to LLMs, explicitly investigating whether LLMs demonstrate consistent personality traits. Analysis of 2,500 settings per model, including GPT-3.5, GPT-4, Gemini-Pro, and LLaMA-3.1, reveals that various LLMs show consistency in responses to the Big Five Inventory, indicating a satisfactory level of reliability. Furthermore, our research explores the potential of GPT-3.5 to emulate diverse personalities and represent various groups-a capability increasingly sought after in social sciences for substituting human participants with LLMs to reduce costs. Our findings reveal that LLMs have the potential to represent different personalities with specific prompt instructions.

研究の動機と目的

  • 人間向けに設計された心理尺度を LLM に適用した場合の信頼性を評価する。
  • さまざまなプロンプトと文脈の下で、LLM が一貫した人格特性を示すかを判断する。
  • 指示、項目、言語、フォーマットが LLM の人格測定に影響を与えるかを調査する。
  • プロンプト主導のパーソナライズを通じて、LLM が多様な人間集団を表現する可能性を探る。

提案手法

  • 5つの要因(指示、項目、言語、選択肢ラベル、選択肢の順序)を変化させる枠組みを構築し、LLM 上で Big Five Inventory の 2,500 通りの構成を生成する。
  • 温度0 の gpt-3.5-turbo を用いて、設定ごとに五次元の OCEAN スコアを収集する。
  • 項目を GPT-4 で言い換え、追加の九言語に翻訳して多言語信頼性を検証する。
  • 時間をかけて反復促しを行い、内的一貫性と再テスト信頼性を評価する(隔週取得)。
  • 信頼性と変動性を評価するため、人間のノームと比較して分布、外れ値、および偏差を分析する。

実験結果

リサーチクエスチョン

  • RQ1多様な入力条件の下で、心理尺度はLLMに対して安定した信頼できる性格測定を生み出すか。
  • RQ2プロンプト操作を通じて、LLM は多様な人間の個性を意味のある形で模倣できるか。
  • RQ3言語、項目の言い換え、選択肢のフォーマットは LL M の人格スコアにどう影響するか。
  • RQ4時期や設定を超えて、GPT-3.5-turbo に一貫した Big Five の特性の証拠はあるか。

主な発見

  • GPT-3.5-turbo は、さまざまなプロンプトと設定において Big Five Inventory の信頼性を満足のいくレベルで示す。
  • ほとんどの因子変化は平均スコアに有意差を生じさせない;差が 0.15 を超える比較はごく少数である。
  • OCEAN 次元の標準偏差は、一般的な人間のクラウドノルムより小さく、より決定論的な応答を示している。
  • アラビア数字、降順、特定の言語(アラビア語、中国語)が使用される箇所で外れ値が集中しており、理解のばらつきが推測される。
  • 人格に影響を及ぼす三つのアプローチ(環境、割り当てられた人格、キャラクターを体現すること)は分布を変えることができ、キャラクターを体現することでの成形が最も効果的である。
  • キャラクターは表現される人格のスペクトルを広げることができるが、英雄的な人物は正のバイアスのためデフォルトと同様の分布を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。