QUICK REVIEW

[論文レビュー] Evaluating Large Language Models with Psychometrics

Yuan Li, Yue Huang|arXiv (Cornell University)|Jun 25, 2024

Explainable Artificial Intelligence (XAI)被引用数 5

ひとこと要約

本論文は、13のデータセットを用いて、LLM における6つの心理的次元を心理測定学ベースのベンチマークで評価し、自己申告と実世界の回答を検討し、複数の評価設定に渡る信頼性を検証する。

ABSTRACT

Large Language Models (LLMs) have demonstrated exceptional capabilities in solving various tasks, progressively evolving into general-purpose assistants. The increasing integration of LLMs into society has sparked interest in whether they exhibit psychological patterns, and whether these patterns remain consistent across different contexts -- questions that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a {comprehensive benchmark for quantifying psychological constructs of LLMs}, encompassing psychological dimension identification, assessment dataset design, and assessment with results validation. Our work identifies five key psychological constructs -- personality, values, emotional intelligence, theory of mind, and self-efficacy -- assessed through a suite of 13 datasets featuring diverse scenarios and item types. We uncover significant discrepancies between LLMs' self-reported traits and their response patterns in real-world scenarios, revealing complexities in their behaviors. Our findings also show that some preference-based tests, originally designed for humans, could not solicit reliable responses from LLMs. This paper offers a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.

研究の動機と目的

心理測定学をフレームワークとして用い、LLM の挙動に関連する心理的次元を特定する。
自己申告、自由回答、およびシナリオベースの項目を含む多様な評価データセットをキュレーションする。
6つの次元で LLM を評価し、複数のテストと評価者を通じて信頼性を検証する。
心理測定タスクにおける LLM の回答の一貫性、頑健性、および信頼性を分析する。
AI 評価、社会科学研究、および実世界の応用への示唆を論じる。

提案手法

心理測定学に触発されたトップダウンのフレームワークを採用して、6つの心理的次元: パーソナリティ、価値観、感情、心の理論、動機、知性を特定する。
心理測定テスト、既存データセット、および自設計のシナリオから、6つの次元にまたがる13のデータセットをキュレーションする。
各次元を評価するために、自己申告の評価、ビネット/自由回答、ロールプレイプロンプトを使用する。
オープンエンド項目を評価し、評価者間信頼性を測定するために、2つのLLM評価者（GPT-4 および Llama3-70b）を用いて自由回答項目を評価する。
内部整合性、並列形信頼性、評価者間信頼性、選択肢位置の頑健性、および敵対的攻撃の頑健性を通じて信頼性を評価する。
心理測定をLLM評価に適用する潜在的な利点と制約を議論し、信頼性分析を通じて結果を解釈する。

実験結果

リサーチクエスチョン

RQ1LLMは、自己申告、自由回答、シナリオベースのタスクといった異なる評価設定を跨いで、安定した心理的属性を示すのか？
RQ2プロンプト設計とロールプレイは、観察されるパーソナリティおよび関連特性にどのように影響するか？
RQ3LLM の価値観、感情、心の理論、動機、知能は、複数のテストと評価者を通じて信頼性をもって測定可能か？
RQ4心理測定タスクにおける選択肢順序や敵対的撹乱に対するLLMの回答はどれくらい頑健か？
RQ5AI安全性、社会科学研究、信頼されたAI展開における心理測定評価の含意は何か？

主な発見

LLMs は広範な心理的属性を示すが、自己申告された特性と自由回答での行動には一貫性がない。
ロールプレイプロンプトは、自己申告およびビネットベースの評価全体でパーソナリティ得点に大きく影響し得る。
モデルは、位置バイアス、プロンプト感度、敵対的撹乱に対する信頼性が次元ごとに異なる。
GPT-4 と Llama3-70b の評価者間信頼性は自由回答の評価で高く、LLM を審判として用いる現実性を裏付ける。
感情と心の理論（ToM）の評価は、人間のパフォーマンスと比べてかなりのギャップを明らかにしており、感情知能と ToM の頑健性の改善余地を示している。
このベンチマークは、評価文脈ごとにLLMの変動性を浮き彫りにし、責任あるAIと社会科学の再現研究への示唆を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。