QUICK REVIEW

[論文レビュー] FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information

Andrew Zhu, Karmanya Aggarwal|arXiv (Cornell University)|May 2, 2023

Topic Modeling参考文献 10被引用数 1

ひとこと要約

FIREBALL は、Discord 上の 25,000 件を超えるダンジョンズアンドドラゴンズ実況プレイの構造化されたゲーム状態、プレイヤーの発話、Avrae ボットコマンドを含む大規模で現実世界のデータセットである。このデータセットにより、検証済みのゲーム状態に基づいた応答が可能となり、自然言語生成とコマンド予測の性能が向上し、自動評価指標および人間による物語の質と正確性の評価において顕著な向上が見られた。

ABSTRACT

Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.

研究の動機と目的

検証済みのゴールドスタンダードのゲーム状態情報を備えた大規模で現実世界の実況プレイ D&D セッションのデータセットを構築すること。
実際のゲーム内文脈を用いた、根拠に基づいた自然言語生成およびコマンド予測の研究を可能にすること。
構造化されたゲーム状態を統合することで、LLM の D&D ロールプレイングにおける性能を向上させ、誤解を減らし、物語の一貫性を高めること。
このデータセットを用いた微調整が、自動評価指標および人間による品質評価の両方を向上させることを示すこと。

提案手法

Avrae ボットを用いて Discord 上の実際の D&D セッションから、800 万件を超えるプレイ発話、210 万件の Avrae コマンド、120 万件のゲーム状態を収集した。
Avrae の内部ゲーム状態ログから、詳細なキャラクター属性、戦闘状態、呪文効果、先攻順位を抽出し、構造化した。
主な2つのタスクを構築した：(1) 発話からコマンド — ナチュラルランゲージでのロールプレイを実行可能な Avrae コマンドにマッピングするタスク — と (2) 状態から物語生成 — ゲーム状態の変化からゲーム内物語を生成するタスク。
検証済みの状態に基づいて、LLM（例：GPT-3）を微調整し、コマンド予測および物語生成の精度を向上させた。
人間による評価と自動評価指標（例：BLEU、ROUGE、GLEU）を用いて、会話履歴のみに依存するベースラインモデルと比較した。
一般利用に適した状態を保つために、後処理によるフィルタリングを実施し、不適切な表現や危険な内容を除去した。

実験結果

リサーチクエスチョン

RQ1検証済みのゲーム状態が提供された場合、LLM は自然言語によるロールプレイ発話から Avrae コマンドを正確に予測できるか？
RQ2構造化されたゲーム状態を LLM の入力に組み込むことで、生成されるゲーム内物語の質と根拠の有無が向上するか？
RQ3FIREBALL で微調整されたモデルは、ゲーム状態を活用しないモデルと比較して、物語の整合性と事実の整合性がどの程度向上するか？
RQ4状態に依存するモデルは、特にモンスターの状態や戦闘結果に関して、幻覚現象（ホールリュケーション）をどれほど効果的に低減できるか？

主な発見

FIREBALL で微調整された LLM は、人間評価者による評価でも、ベースラインモデルと比較してより一貫性があり正確な物語生成を実現した。
発話からコマンドへの変換モデルは、構造化されたゲーム状態を活用することで、アクションの解釈ミスを大幅に削減し、高いコマンド予測精度を達成した。
状態に依存するモデルは、実際のゲーム状態に反映されていなくても、モンスターの死亡や誤った呪文効果を幻覚的に生成する傾向が低かった。
人間評価では、ゲーム状態情報を活用したモデルが、会話履歴のみに依存するモデルよりも、より一貫性があり文脈に適した物語的記述を生成したことが確認された。
自動評価指標（BLEU や ROUGE）において、状態に依存するモデルは、状態に依存しないモデルと比較して 15–20% の向上を示した。
物語の文脈やマップ上での移動を完全に捉えるには限界があるものの、FIREBALL は、ロールプレイングゲームにおける状態に基づいた NLG および行動予測の強固な基盤を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。