[論文レビュー] Evaluating Large Language Models with Psychometrics
本論文は、13のデータセットを用いて、LLM における6つの心理的次元を心理測定学ベースのベンチマークで評価し、自己申告と実世界の回答を検討し、複数の評価設定に渡る信頼性を検証する。
Large Language Models (LLMs) have demonstrated exceptional capabilities in solving various tasks, progressively evolving into general-purpose assistants. The increasing integration of LLMs into society has sparked interest in whether they exhibit psychological patterns, and whether these patterns remain consistent across different contexts -- questions that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a {comprehensive benchmark for quantifying psychological constructs of LLMs}, encompassing psychological dimension identification, assessment dataset design, and assessment with results validation. Our work identifies five key psychological constructs -- personality, values, emotional intelligence, theory of mind, and self-efficacy -- assessed through a suite of 13 datasets featuring diverse scenarios and item types. We uncover significant discrepancies between LLMs' self-reported traits and their response patterns in real-world scenarios, revealing complexities in their behaviors. Our findings also show that some preference-based tests, originally designed for humans, could not solicit reliable responses from LLMs. This paper offers a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.
研究の動機と目的
- 心理測定学をフレームワークとして用い、LLM の挙動に関連する心理的次元を特定する。
- 自己申告、自由回答、およびシナリオベースの項目を含む多様な評価データセットをキュレーションする。
- 6つの次元で LLM を評価し、複数のテストと評価者を通じて信頼性を検証する。
- 心理測定タスクにおける LLM の回答の一貫性、頑健性、および信頼性を分析する。
- AI 評価、社会科学研究、および実世界の応用への示唆を論じる。
提案手法
- 心理測定学に触発されたトップダウンのフレームワークを採用して、6つの心理的次元: パーソナリティ、価値観、感情、心の理論、動機、知性を特定する。
- 心理測定テスト、既存データセット、および自設計のシナリオから、6つの次元にまたがる13のデータセットをキュレーションする。
- 各次元を評価するために、自己申告の評価、ビネット/自由回答、ロールプレイプロンプトを使用する。
- オープンエンド項目を評価し、評価者間信頼性を測定するために、2つのLLM評価者(GPT-4 および Llama3-70b)を用いて自由回答項目を評価する。
- 内部整合性、並列形信頼性、評価者間信頼性、選択肢位置の頑健性、および敵対的攻撃の頑健性を通じて信頼性を評価する。
- 心理測定をLLM評価に適用する潜在的な利点と制約を議論し、信頼性分析を通じて結果を解釈する。
実験結果
リサーチクエスチョン
- RQ1LLMは、自己申告、自由回答、シナリオベースのタスクといった異なる評価設定を跨いで、安定した心理的属性を示すのか?
- RQ2プロンプト設計とロールプレイは、観察されるパーソナリティおよび関連特性にどのように影響するか?
- RQ3LLM の価値観、感情、心の理論、動機、知能は、複数のテストと評価者を通じて信頼性をもって測定可能か?
- RQ4心理測定タスクにおける選択肢順序や敵対的撹乱に対するLLMの回答はどれくらい頑健か?
- RQ5AI安全性、社会科学研究、信頼されたAI展開における心理測定評価の含意は何か?
主な発見
- LLMs は広範な心理的属性を示すが、自己申告された特性と自由回答での行動には一貫性がない。
- ロールプレイプロンプトは、自己申告およびビネットベースの評価全体でパーソナリティ得点に大きく影響し得る。
- モデルは、位置バイアス、プロンプト感度、敵対的撹乱に対する信頼性が次元ごとに異なる。
- GPT-4 と Llama3-70b の評価者間信頼性は自由回答の評価で高く、LLM を審判として用いる現実性を裏付ける。
- 感情と心の理論(ToM)の評価は、人間のパフォーマンスと比べてかなりのギャップを明らかにしており、感情知能と ToM の頑健性の改善余地を示している。
- このベンチマークは、評価文脈ごとにLLMの変動性を浮き彫りにし、責任あるAIと社会科学の再現研究への示唆を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。