Skip to main content
QUICK REVIEW

[论文解读] Evaluating Large Language Models with Psychometrics

Yuan Li, Yue Huang|arXiv (Cornell University)|Jun 25, 2024
Explainable Artificial Intelligence (XAI)被引用 5
一句话总结

该论文提出一个基于心理测量学的基准,用于通过十三个数据集在LLM中评估六个人格维度,考察自我报告与现实世界回应,并在多种评估设置下验证可靠性。

ABSTRACT

Large Language Models (LLMs) have demonstrated exceptional capabilities in solving various tasks, progressively evolving into general-purpose assistants. The increasing integration of LLMs into society has sparked interest in whether they exhibit psychological patterns, and whether these patterns remain consistent across different contexts -- questions that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a {comprehensive benchmark for quantifying psychological constructs of LLMs}, encompassing psychological dimension identification, assessment dataset design, and assessment with results validation. Our work identifies five key psychological constructs -- personality, values, emotional intelligence, theory of mind, and self-efficacy -- assessed through a suite of 13 datasets featuring diverse scenarios and item types. We uncover significant discrepancies between LLMs' self-reported traits and their response patterns in real-world scenarios, revealing complexities in their behaviors. Our findings also show that some preference-based tests, originally designed for humans, could not solicit reliable responses from LLMs. This paper offers a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.

研究动机与目标

  • 使用心理测量学作为框架,识别与LLM行为相关的心理维度。
  • 策划覆盖自我报告、开放式回答和情景题的多样化评估数据集。
  • 在六个维度上评估LLMs,并在多项测试和评估者中验证可靠性。
  • 分析LLM在心理测量任务中的一致性、鲁棒性和可靠性。
  • 讨论对AI评估、社会科学研究和现实世界应用的影响。

提出的方法

  • 采用自上而下、受心理测量学启发的框架来识别六个心理维度:人格、价值观、情感、心智理论、动机和智力。
  • 从心理测量测试、既有数据集以及六个维度的自设计情景中策划十三个数据集。
  • 使用自我报告的评分、情景描述/开放式回答以及角色扮演提示来评估每个维度。
  • 使用两名LLM评估者(GPT-4 和 Llama3-70b)来评估开放式项目并衡量评注者之间的一致性。
  • 通过内部一致性、并行形式可靠性、评注者之间的一致性、选项位置鲁棒性以及对抗性攻击鲁棒性来评估可靠性。
  • 讨论将心理测量学应用于LLM评估的潜在益处与局限性,并通过可靠性分析来解释结果。

实验结果

研究问题

  • RQ1LLMs在不同评估设定(自我报告、开放式回答和情景题任务)下是否表现出稳定的心理属性?
  • RQ2提示设计和角色扮演如何影响LLMs中观察到的人格及相关属性?
  • RQ3LLMs的价值观、情感、心智理论、动机和智力是否能在多项测试和评估者之间以可靠性进行测量?
  • RQ4在心理测量任务中,LLMs对选项顺序和对抗性扰动的反应有多鲁棒?
  • RQ5心理测量评估对AI安全、社会科学研究和可信赖AI部署有何影响?

主要发现

  • LLMs 展现出广泛的心理属性谱系,自我报告的特征与开放式回答中的行为存在不一致。
  • 角色扮演提示可以显著影响自我报告和情景描述评估中的人格分数。
  • 在不同维度上,模型在位置偏置、提示敏感性及对抗性扰动方面的可靠性存在差异。
  • GPT-4 与 Llama3-70b 之间在开放式评估上的评注者一致性很高,支持LLM作为评审的可行性。
  • 情感与ToM评估显示与人类表现相比存在显著差距,表明情感智能和ToM鲁棒性仍有提升空间。
  • 该基准突显了LLMs在不同评估情境中的变异性,对负责任AI和社会科学复制研究具有影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。