[论文解读] Stable Personas: Dual-Assessment of Temporal Stability in LLM-Based Human Simulation
该论文提出一个双重评估框架,用以测试LLM生成的人格在时间上的稳定性,显示在七种模型和三种提示下,长期对话中自我报告的稳定性较高,但观测者表达的人格强度在持续对话中衰减。
Large Language Models (LLMs) acting as artificial agents offer the potential for scalable behavioral research, yet their validity depends on whether LLMs can maintain stable personas across extended conversations. We address this point using a dual-assessment framework measuring both self-reported characteristics and observer-rated persona expression. Across two experiments testing four persona conditions (default, high, moderate, and low ADHD presentations), seven LLMs, and three semantically equivalent persona prompts, we examine between-conversation stability (3,473 conversations) and within-conversation stability (1,370 conversations and 18 turns). Self-reports remain highly stable both between and within conversations. However, observer ratings reveal a tendency for persona expressions to decline during extended conversations. These findings suggest that persona-instructed LLMs produce stable, persona-aligned self-reports, an important prerequisite for behavioral research, while identifying this regression tendency as a boundary condition for multi-agent social simulation.
研究动机与目标
- 在LLM-based 社会仿真中需要稳定人格以实现可靠行为研究的动机。
- 引入结合自我报告与观察者评分的双重评估框架,以发现单一来源无法察觉的稳定性差距。
- 以ADHD特征作为人格的运作化表示,测试不同模型类型与提示风格下的稳定性。
- 量化跨对话与同对话内的稳定性,在多种模型与提示下分解方差。
提出的方法
- 两项实验:实验 I 评估跨对话的跨对话稳定性,在每个条件下进行50次运行共3,473个对话。
- 实验 II 评估跨对话内的稳定性,在18回合评估的1,370个对话中进行。
- 使用七种LLM与三种语义等价提示,生成四种人格强度(高、适中、低、默认)。
- ADHD症状强度以CAARS 12项 ADHD 指数(0–36)作为主要结果。
- 三个独立的LLM评估者对观测者表达进行评估,形成观测者报告分数。
- 线性混合效应模型按人格、模型、提示、对话与回合划分方差以评估稳定性。

实验结果
研究问题
- RQ1LLMs在独立对话中以多大程度上维持分配的人格强度的稳定性?
- RQ2在长对话中,当以自我报告与观测者报告对人格表达进行评估时,表达的稳定性如何?
- RQ3模型选择与提示设计是否显著影响条件下的人格稳定性与表达?
- RQ4稳定性的方差分解在人格、模型与提示因素上有何差异?
主要发现
| Source | Self-Report | Observer |
|---|---|---|
| Persona | 92.30% | 89.50% |
| Model | 0.30% | 2.60% |
| Prompt | 0.50% | 0.60% |
| Residual | 6.80% | 7.20% |
- 自我报告的人格特征在跨对话和跨模型/提示的情境中高度稳定。
- 在高强度与中等强度的人格中,观测者评分的人格表达在长对话过程中出现下降。
- 跨对话的方差主要由人格分配驱动(约90%以上),模型或提示设计的影响很小。
- 在同一个对话内,自我报告的回合相关方差接近于零,但观测者评分在回合上存在一定方差,表明表达随回合衰减。
- 模型差异改变绝对表达水平,但不会推翻人格强度之间的稳定区分。
- 提示设计对自我报告的影响较小,但可能影响观测者评分的衰减程度。
- 在两项实验中,七种模型与三种提示普遍表明自我报告的稳定性与观测表达下降这一现象的普适性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。