QUICK REVIEW

[논문 리뷰] Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Generation

David Y. Liu, Xanthe Muston|arXiv (Cornell University)|2026. 01. 23.

Artificial Intelligence in Games인용 수 0

한 줄 요약

이 논문은 내러티브 이론 guided 포스트-트레이닝 방식인 d-RLAIF를 사용해 자동 이야기 재서술의 다양성과 내러티브 규칙 준수를 개선하기 위해 강화 학습을 적용했고, 감독형 파인튜닝 대비 이득을 보이며 Todorov의 Narrative Equilibrium를 보상 기반으로 사용하고 TimeTravel 데이터를 평가한다.

ABSTRACT

Despite the subjective nature of storytelling, past works on automatic story generation (ASG) have relied on limited ground truths for training and evaluation. In this work, we explore reinforcement learning (d-RLAIF) as a post-training alternative to supervised fine-tuning (SFT). We first apply Todorov's Theory of Narrative Equilibrium to establish principles that define desirable ASG qualities. We prompt 7B and 14B LLM-as-judge models with our principles to test alignment with human annotators and provide reward signals during d-RLAIF. We use Gemini-3-Flash to evaluate the output of our post-trained models and compare them to human-written stories from the TimeTravel dataset. We show that d-RLAIF offers a viable alternative to supervised fine-tuning (SFT)--producing stories that are more diverse and aligned with human narrative conventions. Our paper demonstrates the promise of reinforcement learning for linguistically grounded post-training for subjective tasks such as ASG.

연구 동기 및 목표

Todorov의 Narrative Equilibrium 이론을 Desirable ASG 특성 정의에 적용한다.
인간 주석과 LLM 판단 사이의 내러티브 재서술에서의 정합성 여부를 조사한다.
d-RLAIF를 사용해 내러티브 품질 보상을 최적화하도록 LLM을 훈련한다.
d-RLAIF를 SFT 및 지시-튜닝 기반 기준선과 인간 판단 및 지표에 대해 비교한다.

제안 방법

Todorovian 기준(Equilibrium, Disruption, Recognition, Attempt, New Equilibrium)을 정의하고 narrativity 기반의 최소 LRC 점수를 도출한다.
다양성 필터링을 적용한 인간 및 AI 생성 재서술(TimeTravel)로 구성된 주석 데이터셋(n=200)을 큐레이션한다.
LLM을 판단자로 활용해 GRPO의 보상 신호를 생성하고 LoRA 어댑터를 이용해 정책 모델을 d-RLAIF로 학습한다.
정책 모델로 7-8B 규모의 소형~중형 LLM들 및 8B/SOTA 판정자(Selene-1-mini, M-Prometheus, Gemini-3-Flash)를 실험한다.
Gemini-3-Flash 및 표준 언어 지표(BLEU-4, ROUGE-L)를 사용해 TimeTravel 테스트 분할에서 포스트-훈련된 모델을 평가한다.
논리적, 합리적, 완전성-N, min-LRC, 서술성 측면에서 SFT 및 지시-튜닝 기준선과 비교한다.

실험 결과

연구 질문

RQ1자가-훈련에서 보상 신호로 내러티브 이론을 어떻게 운영화할 수 있는가?
RQ2d-RLAIF로 훈련된 모델이 SFT나 지시-튜닝보다 인간의 내러티브 규칙에 더 잘 맞는 재서술을 생성하는가?
RQ3내러티브성 대 비-내러티브 보상 신호의 사용이 모델 성능에 미치는 영향은 무엇인가?
RQ4모델 크기, 판정자의 품질, 훈련 효율성 간의 trade-off가 내러티브 이론 기반 ASG에서 어떻게 작용하는가?

주요 결과

d-RLAIF는 TimeTravel 재서술에서 일반적으로 감독형 파인 튜닝 및 지시-튜닝 모델보다 우수한 경향을 보인다.
서술성 기반 보상(R_N)은 최소-LRC 점수에서 강한 성능을 발휘하며 특정 기준에서 인간의 성능에 근접했다.
SFT는 인간과의 언어적 유사성(BLEU-4, ROUGE-L) 및 Complete-N에서 가장 높은 점수를 얻었지만, 다양성 및 서술성 측면은 종종 손실되었다.
로컬 LLM-판정자가 보상 신호를 효과적으로 안내할 수 있으며, 판정자의 엄격함과 보상 구성에 따라 성능이 달라진다.
보상 스케일링(3점 대 5점)이 학습 역학에 영향을 주며, 더 높은 해상도가 항상 서술성을 향상시키지는 않아 그래디언트-스타vation 위험을 시사한다.
d-RLAIF를 통한 포스트-훈련은 더 작은 데이터셋으로도 더 빠르게 수렴할 수 있어 주관적 작업에 대해 언어적으로 기반한 효율적 포스트-트레이닝 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.