QUICK REVIEW

[논문 리뷰] Revisiting the Reliability of Psychological Scales on Large Language Models

Jen-tse Huang, Wenxiang Jiao|arXiv (Cornell University)|2023. 05. 31.

Topic Modeling인용 수 10

한 줄 요약

본 논문은 인간 심리 척도, 특히 Big Five Inventory가 GPT-3.5-turbo에 2,500개의 다양한 설정에서 적용될 때 신뢰할 수 있는지 분석하고, 프롬프트 조정을 통해 다양한 성격을 표현할 수 있음을 보여준다.

ABSTRACT

Recent research has focused on examining Large Language Models' (LLMs) characteristics from a psychological standpoint, acknowledging the necessity of understanding their behavioral characteristics. The administration of personality tests to LLMs has emerged as a noteworthy area in this context. However, the suitability of employing psychological scales, initially devised for humans, on LLMs is a matter of ongoing debate. Our study aims to determine the reliability of applying personality assessments to LLMs, explicitly investigating whether LLMs demonstrate consistent personality traits. Analysis of 2,500 settings per model, including GPT-3.5, GPT-4, Gemini-Pro, and LLaMA-3.1, reveals that various LLMs show consistency in responses to the Big Five Inventory, indicating a satisfactory level of reliability. Furthermore, our research explores the potential of GPT-3.5 to emulate diverse personalities and represent various groups-a capability increasingly sought after in social sciences for substituting human participants with LLMs to reduce costs. Our findings reveal that LLMs have the potential to represent different personalities with specific prompt instructions.

연구 동기 및 목표

LLM에 적용될 때 인간을 위해 설계된 심리 척도의 신뢰성을 평가한다.
다양한 프롬프트와 맥락에서 LLM이 일관된 성격 특성을 보이는지 판단한다.
지시, 항목, 언어 및 형식이 LLM의 성격 측정에 영향을 미치는지 조사한다.
프롬프트 기반 개인화로 LLM이 다양한 인간 집단을 표현할 가능성을 탐구한다.

제안 방법

다섯 가지 요인(지시, 항목, 언어, 선택 라벨, 선택 순서)을 변화시키는 프레임워크를 구성하여 LLM에서 Big Five Inventory의 2,500개 구성을 생성한다.
온도 0에 가까운 gpt-3.5-turbo를 사용하여 각 설정에서 다섯 차원의 OCEAN 점수를 수집한다.
아이템을 GPT-4로 재구성하고 9개 추가 언어로 번역하여 다국어 간 신뢰성을 시험한다.
시간에 따라 반복 프롬프트를 통해 내부 일관성과 검사–재검사 신뢰도를 평가한다(격주 수집).
인간 표준과의 분포, 이상치 및 편차를 분석하여 신뢰도와 변동성을 평가한다.

실험 결과

연구 질문

RQ1다양한 입력 조건에서 LLM에 적용할 때 심리 척도가 안정적이고 신뢰할 만한 성격 측정을 제공하는가?
RQ2프롬프트 기반 조작을 통해 LLM이 다양한 인간 성격을 의미 있게 모방할 수 있는가?
RQ3언어, 항목 의역, 선택 형식이 LLM의 성격 점수에 어떤 영향을 미치는가?
RQ4시공간에 걸쳐 GPT-3.5-turbo에서 일관된 Big Five 특성이 나타나는 증거가 있는가?

주요 결과

GPT-3.5-turbo는 다양한 프롬프트와 설정에서 Big Five Inventory에 대해 만족스러운 신뢰도를 보인다.
대부분의 요인 변화는 평균 점수에 유의미한 차이를 만들지 않으며, 차이가 0.15를 넘는 비교는 소수에 불과하다.
모델의 표준편차가 일반적인 인간 군집의 표준편차보다 작아 더 결정론적인 응답을 시사한다.
이상값은 아라비아 숫자, 내림차순, 특정 언어(아랍어, 중국어)가 사용될 때 군집화되어 이해도 차이가 있을 수 있음을 시사한다.
성격에 영향을 주는 세 가지 접근법(환경, 할당된 성격, 캐릭터를 구현)이 분포를 변화시킬 수 있으며, 캐릭터를 구현하는 방식이 가장 효과적이다.
캐릭터는 표현되는 성격 스펙트럼을 확장할 수 있지만, 영웅적 인물은 긍정 편향으로 인해 기본값과 유사한 분포를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.