QUICK REVIEW

[论文解读] Evaluating Large Language Models with Psychometrics

Yuan Li, Yue Huang|arXiv (Cornell University)|Jun 25, 2024

Explainable Artificial Intelligence (XAI)被引用 5

一句话总结

该论文提出一个基于心理测量学的基准，用于通过十三个数据集在LLM中评估六个人格维度，考察自我报告与现实世界回应，并在多种评估设置下验证可靠性。

ABSTRACT

Large Language Models (LLMs) have demonstrated exceptional capabilities in solving various tasks, progressively evolving into general-purpose assistants. The increasing integration of LLMs into society has sparked interest in whether they exhibit psychological patterns, and whether these patterns remain consistent across different contexts -- questions that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a {comprehensive benchmark for quantifying psychological constructs of LLMs}, encompassing psychological dimension identification, assessment dataset design, and assessment with results validation. Our work identifies five key psychological constructs -- personality, values, emotional intelligence, theory of mind, and self-efficacy -- assessed through a suite of 13 datasets featuring diverse scenarios and item types. We uncover significant discrepancies between LLMs' self-reported traits and their response patterns in real-world scenarios, revealing complexities in their behaviors. Our findings also show that some preference-based tests, originally designed for humans, could not solicit reliable responses from LLMs. This paper offers a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.

研究动机与目标

使用心理测量学作为框架，识别与LLM行为相关的心理维度。
策划覆盖自我报告、开放式回答和情景题的多样化评估数据集。
在六个维度上评估LLMs，并在多项测试和评估者中验证可靠性。
分析LLM在心理测量任务中的一致性、鲁棒性和可靠性。
讨论对AI评估、社会科学研究和现实世界应用的影响。

提出的方法

采用自上而下、受心理测量学启发的框架来识别六个心理维度：人格、价值观、情感、心智理论、动机和智力。
从心理测量测试、既有数据集以及六个维度的自设计情景中策划十三个数据集。
使用自我报告的评分、情景描述/开放式回答以及角色扮演提示来评估每个维度。
使用两名LLM评估者（GPT-4 和 Llama3-70b）来评估开放式项目并衡量评注者之间的一致性。
通过内部一致性、并行形式可靠性、评注者之间的一致性、选项位置鲁棒性以及对抗性攻击鲁棒性来评估可靠性。
讨论将心理测量学应用于LLM评估的潜在益处与局限性，并通过可靠性分析来解释结果。

实验结果

研究问题

RQ1LLMs在不同评估设定（自我报告、开放式回答和情景题任务）下是否表现出稳定的心理属性？
RQ2提示设计和角色扮演如何影响LLMs中观察到的人格及相关属性？
RQ3LLMs的价值观、情感、心智理论、动机和智力是否能在多项测试和评估者之间以可靠性进行测量？
RQ4在心理测量任务中，LLMs对选项顺序和对抗性扰动的反应有多鲁棒？
RQ5心理测量评估对AI安全、社会科学研究和可信赖AI部署有何影响？

主要发现

LLMs 展现出广泛的心理属性谱系，自我报告的特征与开放式回答中的行为存在不一致。
角色扮演提示可以显著影响自我报告和情景描述评估中的人格分数。
在不同维度上，模型在位置偏置、提示敏感性及对抗性扰动方面的可靠性存在差异。
GPT-4 与 Llama3-70b 之间在开放式评估上的评注者一致性很高，支持LLM作为评审的可行性。
情感与ToM评估显示与人类表现相比存在显著差距，表明情感智能和ToM鲁棒性仍有提升空间。
该基准突显了LLMs在不同评估情境中的变异性，对负责任AI和社会科学复制研究具有影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。