[論文レビュー] Beyond Static Snapshots: Dynamic Modeling and Forecasting of Group-Level Value Evolution with Large Language Models
本論文は、歴史的トラジェクトリと中国・米国のWVSデータに基づく社会イベントを活用し、large language models を用いてグループレベルの価値の時間経過を動的・イベント認識的にモデル化・予測するフレームワークを提案する。
Social simulation is critical for mining complex social dynamics and supporting data-driven decision making. LLM-based methods have emerged as powerful tools for this task by leveraging human-like social questionnaire responses to model group behaviors. Existing LLM-based approaches predominantly focus on group-level values at discrete time points, treating them as static snapshots rather than dynamic processes. However, group-level values are not fixed but shaped by long-term social changes. Modeling their dynamics is thus crucial for accurate social evolution prediction--a key challenge in both data mining and social science. This problem remains underexplored due to limited longitudinal data, group heterogeneity, and intricate historical event impacts. To bridge this gap, we propose a novel framework for group-level dynamic social simulation by integrating historical value trajectories into LLM-based human response modeling. We select China and the U.S. as representative contexts, conducting stratified simulations across four core sociodemographic dimensions (gender, age, education, income). Using the World Values Survey, we construct a multi-wave, group-level longitudinal dataset to capture historical value evolution, and then propose the first event-based prediction method for this task, unifying social events, current value states, and group attributes into a single framework. Evaluations across five LLM families show substantial gains: a maximum 30.88\% improvement on seen questions and 33.97\% on unseen questions over the Vanilla baseline. We further find notable cross-group heterogeneity: U.S. groups are more volatile than Chinese groups, and younger groups in both countries are more sensitive to external changes. These findings advance LLM-based social simulation and provide new insights for social scientists to understand and predict social value changes.
研究の動機と目的
- 静的なLLM ベースの社会シミュレーションと動的・長期的な価値の進展のギャップを brid geする。
- World Values Survey (WVS) を用いた中国および米国の多 Wave・グループ階層データセットを構築する。
- 将来のグループ価値を予測するために、Value Trajectory Prediction (VTP) と Event-Aware Prediction (EAP) の二段階フレームワークを開発する。
- 外部イベントを価値次元と整合させることで、解釈可能な予測を可能にする。
- 中国と米国の横断的・人口統計的異質性を価値ダイナミクスにおいて分析する。
提案手法
- 中国および米国のWVS 波5〜7 を four demographics(性別、年齢、教育、所得)にわたり、グループ階層の長期縦断データセットとして構築する。
- 長期的なプロンプトでLLMを微調整し、人口ベクトルと前の波の回答で条件付けして動的価値遷移を学習させる(VTP)。
- ドメイン特定のプールから意味的に整合したイベントを取得し、価値軌道への影響を推論するイベント対応拡張(EAP)を導入する。
- 各調査項目を価値次元へマッピングし、値とイベントを共有埋め込み空間にエンコードし、コサイン類似度を用いて価値駆動型のイベントマッチを行う。
- 見える質問(Seen)と見えない質問(Unseen)を対象に、Exact Match(EM)と Proximity Score(PS)、および全体指標で Vanilla、VTP、EAP を評価する。
- 歴史情報とイベント成分の寄与を定量化するアブレーション分析を行う。
実験結果
リサーチクエスチョン
- RQ1LLMベースの社会シミュレーションは、歴史的トラジェクトリを用いてグループレベルの価値の動的進化を捕捉できるか。
- RQ2外部イベントは価値軌道に有意な影響を与えるのか、イベント対応モデルは予測を改善するか。
- RQ3中国と米国、および人口統計グループ(性別、年齢、教育、所得)間でダイナミクスはどのように異なるか。
- RQ4イベント駆動型の価値予測において、有益な信号とノイズのバランスを取る最適なイベント数はどれか。
- RQ5微調整済みのオープンソースモデルは、この動的・跨文化的設定でクローズドソースモデルと同等以上になり得るか。
主な発見
| Model | Methods | China Seen EM | China Seen PS | China Seen Overall | China Unseen EM | China Unseen PS | China Unseen Overall | United States Seen EM | United States Seen PS | United States Seen Overall | United States Unseen EM | United States Unseen PS | United States Unseen Overall |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Qwen3-8B | Vanilla | 55.78 | 40.74 | 51.17 | 49.53 | 42.59 | 47.74 | 52.77 | 55.60 | 53.56 | 53.71 | 62.72 | 55.42 |
| Qwen3-8B | VTP | 68.28 | 61.26 | 66.13 | 75.31 | 77.14 | 75.78 | 62.50 | 75.01 | 65.99 | 63.17 | 76.74 | 65.76 |
| Qwen3-8B | EAP | 80.51 | 80.64 | 80.55 | 79.35 | 80.09 | 79.54 | 71.63 | 78.51 | 73.55 | 72.25 | 80.33 | 73.79 |
| Qwen3-14B | Vanilla | 64.81 | 48.43 | 59.80 | 70.96 | 63.66 | 69.08 | 48.48 | 62.27 | 52.33 | 57.67 | 70.87 | 60.19 |
| Qwen3-14B | VTP | 75.63 | 61.07 | 71.17 | 82.76 | 83.75 | 83.02 | 66.74 | 69.93 | 67.63 | 67.65 | 78.37 | 69.69 |
| Qwen3-14B | EAP | 82.72 | 79.71 | 81.80 | 84.16 | 81.16 | 83.39 | 77.12 | 79.33 | 77.74 | 70.72 | 76.96 | 71.90 |
| GLM4-9B | Vanilla | 53.68 | 51.60 | 53.04 | 52.95 | 71.52 | 57.74 | 51.74 | 60.28 | 54.12 | 47.31 | 63.15 | 50.33 |
| GLM4-9B | VTP | 60.71 | 70.64 | 63.75 | 84.94 | 82.86 | 84.40 | 74.62 | 79.80 | 76.07 | 71.87 | 74.89 | 72.44 |
| GLM4-9B | EAP | 77.10 | 83.36 | 79.02 | 87.42 | 85.18 | 86.84 | 79.18 | 82.97 | 80.24 | 76.21 | 81.63 | 77.25 |
| Llama3.1-8B | Vanilla | 48.16 | 42.62 | 46.47 | 49.07 | 36.34 | 45.78 | 51.68 | 55.54 | 52.76 | 46.93 | 42.93 | 46.17 |
| Llama3.1-8B | VTP | 53.94 | 51.17 | 53.09 | 75.31 | 80.18 | 76.57 | 77.77 | 80.31 | 78.48 | 59.08 | 79.02 | 62.88 |
| Llama3.1-8B | EAP | 78.68 | 74.36 | 77.35 | 79.35 | 80.89 | 79.75 | 77.45 | 81.77 | 78.65 | 70.72 | 81.63 | 77.25 |
| Mistral3-7B | Vanilla | 38.60 | 55.93 | 43.91 | 64.44 | 58.48 | 62.90 | 49.13 | 61.94 | 52.71 | 46.04 | 60.87 | 48.86 |
| Mistral3-7B | VTP | 59.24 | 62.29 | 60.17 | 70.96 | 73.84 | 71.71 | 67.50 | 71.87 | 68.72 | 59.08 | 70.76 | 61.30 |
| Mistral3-7B | EAP | 74.11 | 67.33 | 72.03 | 70.50 | 76.16 | 71.96 | 73.21 | 70.13 | 72.35 | 65.22 | 70.43 | 66.21 |
- VTP および特に EAP は、見える質問・見えない質問の双方で中国・米国において Vanilla ベースラインを上回る。
- 中国のグループは、Qwen3-14B の EAP が見える質問で最良の性能を示し(+22.00% 対 Vanilla)。
- 米国のグループは、GLM4-9B の EAP が見える質問で最良の性能を示し(+26.12% 対 Vanilla)。
- 微調整済みのオープンソースモデルは、このタスクで一部のクローズドソースモデルと同等またはそれを超えることができる。
- EAP は一般に VTP よりも頑健性と跨文化一般化に優れる。
- アブレーションにより、イベント成分または歴史成分を除くと性能が低下し、米国グループでより大きな影響が観察され、外部ショックに対する感度が高いことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。