Skip to main content
QUICK REVIEW

[논문 리뷰] Stable Personas: Dual-Assessment of Temporal Stability in LLM-Based Human Simulation

Jana Gonnermann-Müller, Jennifer Haase|arXiv (Cornell University)|2026. 01. 30.
Persona Design and Applications인용 수 0
한 줄 요약

논문은 LLM이 생성한 페르소나의 시간적 안정성을 테스트하기 위한 이중 평가 프레임워크를 도입하고 있으며, 7개의 모델과 3개의 프롬프트에 걸친 긴 대화에서 자가 보고는 안정적이지만 관찰자 표현된 페르소나 강도는 감소한다는 것을 보여준다.

ABSTRACT

Large Language Models (LLMs) acting as artificial agents offer the potential for scalable behavioral research, yet their validity depends on whether LLMs can maintain stable personas across extended conversations. We address this point using a dual-assessment framework measuring both self-reported characteristics and observer-rated persona expression. Across two experiments testing four persona conditions (default, high, moderate, and low ADHD presentations), seven LLMs, and three semantically equivalent persona prompts, we examine between-conversation stability (3,473 conversations) and within-conversation stability (1,370 conversations and 18 turns). Self-reports remain highly stable both between and within conversations. However, observer ratings reveal a tendency for persona expressions to decline during extended conversations. These findings suggest that persona-instructed LLMs produce stable, persona-aligned self-reports, an important prerequisite for behavioral research, while identifying this regression tendency as a boundary condition for multi-agent social simulation.

연구 동기 및 목표

  • LLM 기반 사회 시뮬레이션에서 신뢰할 수 있는 행동 연구를 위해 안정적인 페르소나의 필요성을 촉진한다.
  • 단일 소스로는 포착하기 어려운 안정성 차이를 탐지하기 위해 자가 보고와 관찰자 평가를 결합한 이중 평가 프레임워크를 소개한다.
  • 다양한 모델 유형과 프롬프트 스타일에서 안정성을 테스트하기 위해 ADHD 프로필을 사용하여 페르소나를 운영화한다.
  • 여러 모델과 프롬프트에 걸친 대화 간 및 대화 내 안정성을 정량화하여 분산을 분해한다.

제안 방법

  • 두 가지 실험: 실험 I는 조건당 50회 실행에 걸쳐 3,473회의 대화를 통해 대화 간 안정성을 평가한다.
  • 실험 II는 18회 평가 시점 중 6, 12, 18회에서 평가를 수행하며 1,370회의 대화를 통해 대화 내 안정성을 평가한다.
  • 일곱 개의 LLM과 세 개의 의미적으로 동등한 프롬프트를 사용하여 네 가지 페르소나 강도(높음, 보통, 낮음, 기본)를 생성한다.
  • ADHD 증상 강도는 CAARS 12-item ADHD Index(0–36)로 주요 결과로 측정된다.
  • 세 명의 독립적인 LLM 평가자가 관찰자 표현을 평가하여 관찰자 보고 점수를 형성한다.
  • 선형 혼합효과 모델이 페르소나, 모델, 프롬프트, 대화, 회전으로 분산을 구분하여 안정성을 평가한다.
Figure 1: Procedure for Experiments I and II (combined presentation).
Figure 1: Procedure for Experiments I and II (combined presentation).

실험 결과

연구 질문

  • RQ1LLM이 독립적인 대화 전반에서 할당된 페르소나 강도를 얼마나 안정적으로 유지하는가?
  • RQ2자가 보고 대 관찰자 보고로 평가했을 때 확장된 대화 중 페르소나 표현은 얼마나 안정적인가?
  • RQ3모델 선택과 프롬프트 설계가 조건 간 페르소나 안정성과 표현에 실질적으로 영향을 미치는가?
  • RQ4페르소나, 모델, 프롬프팅 요인의 안정성 분해는 무엇인가?

주요 결과

출처자가 보고관찰자
페르소나92.30%89.50%
모델0.30%2.60%
프롬프트0.50%0.60%
잔여6.80%7.20%
  • 자가 보고된 페르소나 특성은 모델과 프롬프트에 걸쳐 대화 간 및 대화 내에서 매우 안정적이다.
  • 높음 및 보통 강도의 페르소나에 대해 장시간 대화 중 관찰자 평가된 페르소나 표현이 감소한다.
  • 대화 간 분산은 주로 페르소나 배정에 의해 좌우되며(약 90% 이상), 모델 또는 프롬프트 설계의 영향은 미미하다.
  • 대화 내 분석에서 자가 보고의 시점 관련 분산은 거의 제로에 가까운 반면, 관찰자 평가에는 회전에 따른 일부 분산이 있어 회전이 지남에 따른 감소를 시사한다.
  • 모델 차이가 절대 표현 수준을 바꿀 수는 있어도 페르소나 강도 간의 안정적인 구분을 무너뜨리지는 않는다.
  • 프롬프트 설계는 자가 보고에는 미미한 영향을 주지만 관찰자 보고 감소의 크기에 영향을 미칠 수 있다.
  • 실험 전반에서 일곱 모델과 세 프롬프트는 자가 보고의 안정성과 관찰자 표현 감소 현상의 일반화를 보여준다.
Figure 2: Self-report ADHD Index across 50 runs by persona intensity (high=red, moderate=yellow, low=green, default=grey).
Figure 2: Self-report ADHD Index across 50 runs by persona intensity (high=red, moderate=yellow, low=green, default=grey).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.