Skip to main content
QUICK REVIEW

[論文レビュー] PersonaTrace: Synthesizing Realistic Digital Footprints with LLM Agents

Minjia Wang, Yunfeng Wang|arXiv (Cornell University)|Mar 12, 2026
Persona Design and Applications被引用数 0
ひとこと要約

PersonaTrace は LLM エージェントを用いて人口統計的ペルソナから現実的で多層のデジタ footprints を合成するエンドツーエンドのフレームワークを提示し、従来の合成データと比較して実世界タスクの下流の一般化性能が向上することを示す。

ABSTRACT

Digital footprints (records of individuals' interactions with digital systems) are essential for studying behavior, developing personalized applications, and training machine learning models. However, research in this area is often hindered by the scarcity of diverse and accessible data. To address this limitation, we propose a novel method for synthesizing realistic digital footprints using large language model (LLM) agents. Starting from a structured user profile, our approach generates diverse and plausible sequences of user events, ultimately producing corresponding digital artifacts such as emails, messages, calendar entries, reminders, etc. Intrinsic evaluation results demonstrate that the generated dataset is more diverse and realistic than existing baselines. Moreover, models fine-tuned on our synthetic data outperform those trained on other synthetic datasets when evaluated on real-world out-of-distribution tasks.

研究の動機と目的

  • デジタルフットプリントのデータ不足を複数モダリティ(メール、メッセージ、カレンダー等)で解消する。
  • 一貫性のあるイベントと対応するアーティファクトを生成するエンドツーエンドのペルソナ主導パイプラインを開発する。
  • 合成フットプリントの内在的多様性/現実性と下流タスクへの外在的有用性を実証する。

提案手法

  • 三エージェント・パイプライン: ペルソナ・エージェントが豊かな人口統計的ペルソナを構築する; イベント・エージェントがペルソナを現実的なイベント群へと拡張する; アーティファクト生成エージェントがデジタル・アーティファクト(メール、メッセージ、カレンダー、リマインダー)を作成し、Critic Agents が現実性と一貫性のために反復的フィードバックを提供する。
  • イベント記憶とペルソナ整合性検索: イベント・エージェントはシードイベント記憶(PersonaHub)と埋め込み検索を用いてイベントをペルソナに整合させ、イベントの森へ Recursive に展開し、最大 300 ノードで打ち止める。
  • アーティファクトの Generator–Critic ループ: アーティファクトはアーティファクト生成エージェントによってドラフトされ、三つの Critic Agent が一貫性・現実性・流暢さに焦点を当てて批評し、品質基準を満たすまで繰り返す。

実験結果

リサーチクエスチョン

  • RQ1ペルソナ主導のマルチエージェント枠組みは複数モダリティに跨る多様で現実的なデジタルフットプリントを生成できるか.
  • RQ2PersonaTrace でファインチューニングされたモデルは、他の合成データセットで訓練されたモデルよりも分布外の現実世界タスクで優れた性能を示すか。
  • RQ3エージェントベースの生成とテンプレートベースのベースラインの内在的および外在的影響はデータ品質にどのように影響するか。
  • RQ4アーティファクトがペルソナおよびイベント森林とどの程度一貫性がありグローバルに整合しているか。

主な発見

  • PersonaTrace パイプラインは、ベースラインと比較して合成フットプリントの多様性と現実性の指標が高い。
  • PersonaTrace でファインチューニングされたモデルは、4 つの現実世界の分布外タスク(メール分類、メール下書き、質問応答、次のメッセージ予測)で競争力のあるまたは優れた性能を達成する。
  • エージェントベースの生成は、多様性・現実性・下流タスク性能の点でアブレート/テンプレートベースのベースラインを上回る。
  • 内的評価により PersonaTrace は synthetic データと real データの双方で高い LLMを判定するスコアを達成し、現実性と語学品質を反映する。
  • アブレーションによりエージェントを除去すると多様性・現実性・下流タスク性能が低下し、マルチエージェントアーキテクチャの利点が強調される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。