QUICK REVIEW

[논문 리뷰] FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information

Andrew Zhu, Karmanya Aggarwal|arXiv (Cornell University)|2023. 05. 02.

Topic Modeling참고 문헌 10인용 수 1

한 줄 요약

FIREBALL은 디스코드에서 실시된 25,000개 이상의 던전 앤 드래그언트 실제 플레이 세션을 담은 대규모 실세계 데이터셋으로, 구조화된 게임 상태, 플레이어 발화, 아브레이(Avrae) 봇 명령어를 포함한다. 이 데이터셋은 검증된 게임 상태에 기반해 응답을 보정함으로써 자연어 생성 및 명령어 예측 성능을 향상시켜, 자동 평가 지표와 인간 평가 모두에서 서사 품질과 정확도를 크게 향상시킨다.

ABSTRACT

Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.

연구 동기 및 목표

검증된 골드스탠다드 게임 상태 정보를 포함한 대규모 실세계 실제 플레이 D&D 세션 데이터셋을 구축하는 것.
실게임 컨텍스트를 활용한 구조화된 자연어 생성 및 명령어 예측 연구를 가능하게 하는 것.
구조화된 게임 상태를 통합함으로써 LLM의 D&D 역할놀이 성능을 향상시키고, 환상적 생성을 줄이며 서사 일관성을 높이는 것.
이 데이터셋을 기반으로 LLM을 미세조정함으로써 자동 평가 지표와 인간 평가 모두에서 품질 향상이 이루어지는 것을 입증하는 것.

제안 방법

디스코드에서 아브레이 봇을 사용해 실 D&D 세션에서 800만 개 이상의 게임플레이 발화, 210만 개의 아브레이 명령어, 120만 개의 게임 상태를 수집하였다.
아브레이의 내부 게임 상태 로그에서 캐릭터 특성, 전투 상태, 스펠 효과, 행동 순서를 추출하고 구조화하였다.
주요 두 가지 작업을 구성하였다: (1) 발화에서 명령어로 — 자연어 역할놀이를 실행 가능한 아브레이 명령어로 매핑하는 것, (2) 상태에서 서사로 — 게임 상태 변화에서 유도된 게임 내 서사를 생성하는 것.
검증된 상태 기반으로 LLM(예: GPT-3)을 미세조정하여 명령어 예측 및 구조화된 상태에 기반한 서사 생성 성능을 향상시켰다.
인간 평가와 자동 평가 지표(예: BLEU, ROUGE, GLEU)를 활용해 대화 기록만을 사용하는 기준 모델 대비 상태 인식 모델의 성능을 비교하였다.
일반적 사용에 적합하도록 폭력적 또는 민감한 콘텐츠를 제거하기 위해 사후 필터링을 적용하였다.

실험 결과

연구 질문

RQ1검증된 게임 상태 정보를 제공받는 경우, LLM이 자연어 역할놀이 발화에서 아브레이 명령어를 정확히 예측할 수 있는가?
RQ2구조화된 게임 상태를 LLM 입력에 통합할 경우, 생성된 게임 내 서사의 품질과 구조화된 정도가 향상되는가?
RQ3FIREBALL을 기반으로 미세조정한 모델가 비상태 기반 모델에 비해 서사 일관성과 사실적 일관성 측면에서 얼마나 향상되는가?
RQ4특히 생물의 상태나 전투 결과와 관련해 환상적 생성을 줄이는 데 있어 상태 인식 모델은 기준 모델에 비해 얼마나 뛰어난가?

주요 결과

FIREBALL을 기반으로 미세조정한 LLM은 인간 평가자들로부터 더 높은 일관성과 정확도를 인정받아 기준 모델에 비해 훨씬 뛰어난 구조화된 서사 생성 성능을 보였다.
발화에서 명령어로 변환하는 모델는 구조화된 게임 상태를 활용해 높은 명령어 예측 정확도를 달성했으며, 행동 해석 오류를 줄였다.
상태 인식 모델는 실제 게임 상태에 반영되지 않은 경우에도 생물의 사망이나 잘못된 스펠 효과를 환상적으로 생성하는 경향이 적었다.
인간 평가 결과, 게임 상태 정보를 사용한 모델는 대화 기록만에 의존하는 모델보다 더 논리적이고 맥락에 부합하는 서사 기술을 제공하는 것으로 확인되었다.
상태 인식 모델 대비 비상태 인식 모델 대비 자동 평가 지표(예: BLEU, ROUGE)에서 15-20% 향상된 성능을 기록하였다.
전체 서사 맥락이나 지도 기반 이동을 완전히 반영하지 못하는 한계가 있음에도 불구하고, FIREBALL은 역할놀이 게임에서 상태 기반 자연어 생성 및 동작 예측에 있어 견고한 기반을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.