[论文解读] LLM-based Human Simulations Have Not Yet Been Reliable
本文认为可靠的基于 LLM 的人类仿真需要同时解决 LLM 的固有局限性和仿真框架设计中的缺陷,提供一个统一框架、针对性解决方案以及未来方向。
Large Language Models (LLMs) are increasingly employed for simulating human behaviors across diverse domains. However, our position is that current LLM-based human simulations remain insufficiently reliable, as evidenced by significant discrepancies between their outcomes and authentic human actions. Our investigation begins with a systematic review of LLM-based human simulations in social, economic, policy, and psychological contexts, identifying their common frameworks, recent advances, and persistent limitations. This review reveals that such discrepancies primarily stem from inherent limitations of LLMs and flaws in simulation design, both of which are examined in detail. Building on these insights, we propose a systematic solution framework that emphasizes enriching data foundations, advancing LLM capabilities, and ensuring robust simulation design to enhance reliability. Finally, we introduce a structured algorithm that operationalizes the proposed framework, aiming to guide credible and human-aligned LLM-based simulations. To facilitate further research, we provide a curated list of related literature and resources at https://github.com/Persdre/awesome-llm-human-simulation.
研究动机与目标
- 识别源于 LLM 限制和仿真设计缺陷的基于 LLM 的人类仿真中的根本挑战。
- 提出一个清晰定义 LLM 行动与人类参与的统一仿真框架。
- 提供有针对性的解决方案以改进数据、验证与评估,从而实现可靠仿真。
- 提出未来方向,聚焦数据收集、数据综合与以 LLM 作为评估者进行质量控制。
提出的方法
- 对基于 LLM 的人类仿真进行环境、代理与规则的通用框架形式化(算法 1)。
- 将现有仿真分为社会、经济、政策和心理学领域,并分析 LLM 行动与人类参与。
- 系统性分析固有的 LLM 限制(偏见、认知一致性、记忆、交互机制)。
- 系统性分析仿真框架的设计缺陷(过于简化的心理状态、验证缺口、激励建模)。
- 提出全面解决方案,兼顾 LLM 限制与框架设计(第 5 节)。
- 概述未来方向,包括多维人类数据收集和基于 LLM 的数据质量评估。

实验结果
研究问题
- RQ1LLMs 的哪些固有局限性阻碍了真实的人类仿真?
- RQ2当前仿真框架中的哪些设计缺陷降低了基于 LLM 的仿真的可靠性和有效性?
- RQ3如何联合解决 LLM 的局限性与框架设计,以提升仿真的可靠性、验证和评估?
- RQ4未来方向和数据策略如何提升基于 LLM 的人类仿真的质量与可信度?
主要发现
- 基于 LLM 的人类仿真存在偏见、认知不一致、记忆/长期一致性问题,以及对多代理交互处理较弱。
- 当前仿真框架对复杂人类状态过于简化,在实时验证、监控和整合专家知识方面存在困难。
- 提出一个统一框架,将 LLM 行动与人类参与分离,并引导系统性验证。
- 有针对性的解决方案涵盖偏见缓解训练、认知一致性提升、对 LLM 的外部记忆、模块化验证以及增强激励建模。
- 未来方向强调更丰富的多模态人类数据、高质量的合成数据,以及让 LLM 充当数据质量评估者。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。