QUICK REVIEW

[论文解读] FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information

Andrew Zhu, Karmanya Aggarwal|arXiv (Cornell University)|May 2, 2023

Topic Modeling参考文献 10被引用 1

一句话总结

FIREBALL 是一个大规模、真实世界的数据集，包含超过 25,000 场在 Discord 上进行的《龙与地下城》实际游玩会话，记录了结构化的游戏状态、玩家发言以及 Avrae 机器人指令。该数据集通过将响应基于经验证的游戏状态，显著提升了大语言模型在自然语言生成和命令预测方面的表现，大幅提高了自动化指标和人类对叙事质量与准确性的评估。

ABSTRACT

Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.

研究动机与目标

创建一个大规模、真实世界的真实游玩 D&D 会话数据集，包含经验证的、高质量的游戏状态信息。
通过真实游戏情境支持，推动基于游戏状态的自然语言生成与命令预测研究。
通过整合结构化的游戏状态信息，提升大语言模型在 D&D 角色扮演中的表现，减少幻觉现象，增强叙事一致性。
证明在 FIREBALL 数据集上微调大语言模型，可同时提升自动化指标与人类对质量的判断。

提出的方法

从使用 Avrae 机器人的 Discord D&D 会话中，收集超过 800 万条游戏发言、210 万条 Avrae 指令和 120 万条游戏状态。
从 Avrae 的内部游戏状态日志中提取并结构化详细的角色属性、战斗状态、法术效果及行动顺序。
构建两个主要任务：(1) 从发言到命令 —— 将自然语言角色扮演映射为可执行的 Avrae 指令；(2) 从状态到叙述 —— 从游戏状态变化生成游戏内叙事。
在数据集上微调大语言模型（如 GPT-3），以提升基于经验证状态的命令预测与叙事生成能力。
使用人类评估与自动化指标（如 BLEU、ROUGE、GLEU）对比仅依赖对话历史的基线模型与具备状态感知能力的模型。
应用事后过滤机制，去除粗俗与敏感内容，确保数据集适用于更广泛的应用场景。

实验结果

研究问题

RQ1当提供经验证的游戏状态时，大语言模型能否准确地从自然语言角色扮演发言中预测 Avrae 指令？
RQ2将结构化的游戏状态整合到大语言模型输入中，是否能提升生成的游戏内叙事的质量与准确性？
RQ3与未使用游戏状态信息训练的模型相比，基于 FIREBALL 微调的大语言模型在叙事连贯性与事实一致性方面提升程度如何？
RQ4在涉及生物状态与战斗结果方面，状态感知模型相比基线模型在减少幻觉现象方面表现如何？

主要发现

在 FIREBALL 上微调的大语言模型在生成基于状态的叙事方面显著优于基线模型，人类评估者认为其更具一致性与准确性。
从发言到命令的模型通过利用结构化的游戏状态，实现了高精度的命令预测，有效减少了对动作解释的错误。
具备状态感知能力的模型在未反映在实际游戏状态中的情况下，也较少出现对生物死亡或错误法术效果的幻觉。
人类评估证实，使用游戏状态信息的模型生成的叙事描述比仅依赖对话历史的模型更具连贯性与情境相关性。
与非状态感知模型相比，使用该数据集可使 BLEU 与 ROUGE 等自动化指标提升 15%–20%。
尽管在捕捉完整叙事上下文或基于地图的移动方面存在局限，FIREBALL 仍为角色扮演游戏中的状态感知自然语言生成与动作预测提供了坚实基础。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。