[論文レビュー] Deriving Character Logic from Storyline as Codified Decision Trees
本論文では、Codified Decision Trees(CDT)というデータ駆動フレームワークを提案し、物語から実行可能で状況認識型のキャラクタープロフィールを誘導し、複数のRPベンチマークで CDT がベースラインおよび人間作成プロファイルを上回ることを示す。
Role-playing (RP) agents rely on behavioral profiles to act consistently across diverse narrative contexts, yet existing profiles are largely unstructured, non-executable, and weakly validated, leading to brittle agent behavior. We propose Codified Decision Trees (CDT), a data-driven framework that induces an executable and interpretable decision structure from large-scale narrative data. CDT represents behavioral profiles as a tree of conditional rules, where internal nodes correspond to validated scene conditions and leaves encode grounded behavioral statements, enabling deterministic retrieval of context-appropriate rules at execution time. The tree is learned by iteratively inducing candidate scene-action rules, validating them against data, and refining them through hierarchical specialization, yielding profiles that support transparent inspection and principled updates. Across multiple benchmarks, CDT substantially outperforms human-written profiles and prior profile induction methods on $85$ characters across $16$ artifacts, indicating that codified and validated behavioral representations lead to more reliable agent grounding.
研究の動機と目的
- interpretableで実行可能なプロファイルで grounded なロールプレイエージェントを動機づける。
- large narrative コーパスから codified、ルールベースのキャラクター挙動を自動的に導出する。
- 行動規則の透明な検査、編集、原理的更新を可能にする。
- 複数のベンチマークで CDT の人間作成および他のプロファイリング手法に対する優位性を示す。
提案手法
- セマンティック埋め込みを用いてシーン-アクションの対をクラスタリングし規則性を浮かび上がらせる。
- LLM がクラスタ内で if-then トリガーを提案し codified ルールを形成する。
- 推定されたトリガーを全データセットに対して検証し CDT を再帰的に成長させる。
- 推論時に CDT を辿り、識別的な質問に答えることで行動生成のための-grounded statements を蓄積する。
- CDT を Vanilla prompting、Fine-tuning、RICL、ETA などのベースラインと、複数のアーティファクトに対して比較する。
- アブレーションとバリアント(CDT-Lite、Wikified/Verbalized CDT)を提供し、データ量に対するスケーリングを分析する。
実験結果
リサーチクエスチョン
- RQ1 物語から派生した codified で実行可能なルールは、従来のテキストプロファイルより RP の基盤づけを向上させるか。
- RQ2 階層的で検証済みの CDT 構造は、異なるキャラクターやアーティファクト間で行動予測を改善するか。
- RQ3 CDT は人間作成および codified human profiles と、さまざまなベースラインとデータ規模の下でどう比較されるか。
- RQ4 CDT の構成要素(クラスタリング、分散化、深度)が性能とスケーラビリティに与える影響は何か。
- RQ5 CDT をゴール駆動型または関係特異的なプロファイリングに適用して、標的挙動を捉えることができるか。
主な発見
| Artifact Group | Vanilla | Fine-tuning | RICL | ETA | CDT(我々) | CDT-Lite(我々) | Human Profile | Codified Human Profile |
|---|---|---|---|---|---|---|---|---|
| Fandom Avg | 55.57 | 45.68 | 56.01 | 56.91 | 60.82 | 61.01 | 58.33 | 59.30 |
| Bandori Avg | 65.50 | 62.86 | 68.86 | 72.25 | 77.71 | 79.04 | 71.28 | 71.87 |
- CDT および CDT-Lite は、Fine-grained Fandom および Bandori ベンチマークで最高の NLI スコアを達成し、Vanilla prompting、Fine-tuning、RICL、ETA を上回る。
- CDT および CDT-Lite は、両方のベンチマークで人間作成および codified human profiles をも上回る。
- より多くの訓練データは CDT の性能を強化し、Fandom では modest data でも CDT が人間プロファイルを凌駕し、Bandori では継続的な利益を示す。
- アブレーションにより、明示的検証と深度がより強い grounding に寄与し、クラスタリングまたは分散化を削除すると性能が低下することが示される。
- Wikified および Verbalized CDT バリアントは強い性能を維持し、実行時の走査を伴わずに利用可能なテキスト表現を提供する。
- 関係駆動型 CDT(ゴール駆動型)は、ターゲット関係サブセットで性能を向上させ、 CDT が挙動を特化できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。