[論文レビュー] LLM-based Human Simulations Have Not Yet Been Reliable
論文は、信頼できる LLM ベースの人間シミュレーションには、内在的な LLM の限界とシミュレーション設計の欠陥の両方に対処する必要があると主張し、統一されたフレームワーク、ターゲットを絞った解決策、将来の方向性を提供します。
Large Language Models (LLMs) are increasingly employed for simulating human behaviors across diverse domains. However, our position is that current LLM-based human simulations remain insufficiently reliable, as evidenced by significant discrepancies between their outcomes and authentic human actions. Our investigation begins with a systematic review of LLM-based human simulations in social, economic, policy, and psychological contexts, identifying their common frameworks, recent advances, and persistent limitations. This review reveals that such discrepancies primarily stem from inherent limitations of LLMs and flaws in simulation design, both of which are examined in detail. Building on these insights, we propose a systematic solution framework that emphasizes enriching data foundations, advancing LLM capabilities, and ensuring robust simulation design to enhance reliability. Finally, we introduce a structured algorithm that operationalizes the proposed framework, aiming to guide credible and human-aligned LLM-based simulations. To facilitate further research, we provide a curated list of related literature and resources at https://github.com/Persdre/awesome-llm-human-simulation.
研究の動機と目的
- LLM の限界とシミュレーション設計上の欠陥から生じる LLM ベースの人間シミュレーションにおける基本的な課題を特定する。
- LLM のアクションと人間の参加を明確に定義する統一的なシミュレーション・フレームワークを提案する。
- 信頼性のあるシミュレーションのためのデータ、検証、および評価を改善するためのターゲットを絞った解決策を提供する。
- データ収集、データ合成、品質管理のための LLM-アズ-ジャッジ(LLM-as-a-judge)に焦点を当てた将来の方向性を提案する。
提案手法
- 環境、エージェント、ルールを備えた LLM ベースの人間シミュレーションの一般的なフレームワークを形式化する(アルゴリズム 1)。
- 社会、経済、政策、心理学の領域に既存のシミュレーションを分類し、LLM のアクションと人間の参加を分析する。
- 固有の LLM 限界(偏り、認知的一貫性、記憶、相互作用機構)を系統的に分析する。
- シミュレーション・フレームワークの設計上の欠陥(過度に単純化された心理、検証のギャップ、インセンティブのモデリング)を系統的に分析する。
- LLM の限界とフレームワーク設計の両方に対処する総合的な解決策を提案する(セクション 5)。
- 多次元的な人間データの収集と LLM ベースのデータ品質評価を含む将来の方向性を概説する。

実験結果
リサーチクエスチョン
- RQ1LLM が authentic な人間シミュレーションを妨げる主な内在的制約は何か。
- RQ2現在のシミュレーション・フレームワークの設計上の欠陥は、LLM ベースのシミュレーションの信頼性と妥当性をどのように低下させるか。
- RQ3LLM の限界とフレームワーク設計を共同で対処して、シミュレーションの信頼性、検証、評価をどのように改善できるか。
- RQ4LLM ベースの人間シミュレーションの品質と信頼性を高める将来の方向性とデータ戦略は何か。
主な発見
- LLM ベースの人間シミュレーションには、バイアス、一貫性のない認知、記憶/長期的一貫性の問題、マルチエージェント相互作用の取り扱いの弱さがある。
- 現在のシミュレーション・フレームワークは複雑な人間状態を過度に単純化し、リアルタイムの検証、監視、および専門知識の統合に苦労する。
- LLM のアクションと人間の参加を分離し、系統的な検証を導く統一フレームワークを提案する。
- 偏りを抑制する訓練、認知的一貫性の改善、外部メモリの活用、モジュール型の検証、インセンティブ・モデリングの強化など、ターゲットを絞った解決策を含む。
- 将来の方向性は、より豊かなマルチモーダルな人間データ、高品質な合成データ、データ品質の評価におけるデータの品質判定としての LLM の役割を強調する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。