[논문 리뷰] Evaluating and Inducing Personality in Pre-trained Language Models
본 논문은 Machine Personality Inventory (MPI)를 통해 LLM의 성격을 Big Five에 따라 정량화하고, 특정 성격을 유도하기 위한 프롬프팅 방법(P2)을 제시하며, MPI와 바이그넷 테스트로 검증되었다.
Standardized and quantified evaluation of machine behaviors is a crux of understanding LLMs. In this study, we draw inspiration from psychometric studies by leveraging human personality theory as a tool for studying machine behaviors. Originating as a philosophical quest for human behaviors, the study of personality delves into how individuals differ in thinking, feeling, and behaving. Toward building and understanding human-like social machines, we are motivated to ask: Can we assess machine behaviors by leveraging human psychometric tests in a principled and quantitative manner? If so, can we induce a specific personality in LLMs? To answer these questions, we introduce the Machine Personality Inventory (MPI) tool for studying machine behaviors; MPI follows standardized personality tests, built upon the Big Five Personality Factors (Big Five) theory and personality assessment inventories. By systematically evaluating LLMs with MPI, we provide the first piece of evidence demonstrating the efficacy of MPI in studying LLMs behaviors. We further devise a Personality Prompting (P^2) method to induce LLMs with specific personalities in a controllable way, capable of producing diverse and verifiable behaviors. We hope this work sheds light on future studies by adopting personality as the essential indicator for various downstream tasks, and could further motivate research into equally intriguing human-like machine behaviors.
연구 동기 및 목표
- 인간 성격 이론을 이용한 기계 행동의 표준화되고 정량적인 평가를 촉진한다.
- 빅 파이브 특성을 측정하기 위해 Machine Personality Inventory (MPI)를 정의하고 배치한다.
- 정렬된 LLM이 안정적이고 인간과 유사한 성향의 성격 경향을 보인다는 것을 보여준다.
- 특정 LLM 성격을 유도하기 위한 Personality Prompting (P2)을 제안하고 검증한다.
- 바이그넷 테스트를 통해 유도된 성격이 일반화되는 정도를 탐구한다.
제안 방법
- IPIP 유도 아이템을 사용하여 Big Five 이론에 기반한 MPI를 구성하되 MPI 아이템은 객관식으로 형식화한다.
- 제로샷 QA 설정에서 LLM을 평가하여 OCEAN 점수와 표준 편차를 계산한다.
- MPI 아이템 전반의 성격 안정성을 평가하기 위해 내부 일관성(시그마)을 분석한다.
- 심리적 특성 설명을 키워드 프롬프트와 자기 프롬프트 설명으로 변환하여 특성을 유도하는 체인 프롬프팅(P2)을 도입한다.
- MPI와 바이그넷 테스트에서 Naive Prompting과 Words Auto Prompting 같은 기준선(Baselines)과 P2를 비교한다.
- 인간 참가자를 활용한 바이그넷 테스트를 통해 유도된 성격의 적용 가능성과 견고함을 평가한다.
실험 결과
연구 질문
- RQ1LLM이 심리측정 검사로 정량화할 수 있는 성격과 유사한 특성을 보유하는가?
- RQ2특정 성격을 LLM에 제어 가능하고 검증 가능한 방식으로 유도할 수 있는가?
- RQ3MPI 평가가 구조화된 상황과 실제 세계 시나리오에서 LLM의 행동과 얼마나 잘 상관관계가 있는가?
주요 결과
- MPI는 특정 LLM들(예: GPT-3.5 175B 및 Alpaca 7B)이 Big Five 요인 전반에 걸친 인간 수준의 내부 일관성을 보임을 입증한다.
- 정렬된 LLM은 인간 데이터와 비교할 때 OCEAN 점수에서 인간 분포를 닮은 성격 경향을 보인다.
- P2는 특정 OCEAN 프로필을 성공적으로 유도하며, 유도된 점수가 중립 기반선보다 우수하고 안정성을 보인다.
- 바이그넷 테스트는 P2로 유도된 성격이 인간에 의해 감지되고 MPI 과제 외의 영역으로 일반화될 수 있음을 시사한다.
- P2는 Targeted personality traits 유도에서 Naive Prompting과 Words Auto Prompting보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.