[论文解读] Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Generation
本文提出一种由叙事理论引导的后训练方法(d-RLAIF),通过强化学习来改进自动故事改述,在多样性和与叙事惯例的一致性方面优于有监督微调。它以 Todorov 的叙事平衡论作为奖励基础,并在 TimeTravel 数据上进行评估。
Despite the subjective nature of storytelling, past works on automatic story generation (ASG) have relied on limited ground truths for training and evaluation. In this work, we explore reinforcement learning (d-RLAIF) as a post-training alternative to supervised fine-tuning (SFT). We first apply Todorov's Theory of Narrative Equilibrium to establish principles that define desirable ASG qualities. We prompt 7B and 14B LLM-as-judge models with our principles to test alignment with human annotators and provide reward signals during d-RLAIF. We use Gemini-3-Flash to evaluate the output of our post-trained models and compare them to human-written stories from the TimeTravel dataset. We show that d-RLAIF offers a viable alternative to supervised fine-tuning (SFT)--producing stories that are more diverse and aligned with human narrative conventions. Our paper demonstrates the promise of reinforcement learning for linguistically grounded post-training for subjective tasks such as ASG.
研究动机与目标
- 应用 Todorov 的叙事平衡理论来定义期望的 ASG 质量。
- 调查人类标注与大语言模型对叙事改述的判断之间的一致性。
- 用 d-RLAIF 训练大语言模型以优化叙事质量奖励。
- 在对比人类判断和指标下,将 d-RLAIF 与 SFT 和指令微调基线进行比较。
提出的方法
- 定义 Todorovian 标准(平衡、干扰、识别、尝试、新的平衡)并推导一个最小化的基于叙事性的分数。
- 策划一个带标注的数据集(n=200),包含 TimeTravel 的人类与 AI 生成的改述,进行多样性筛选。
- 使用 LLM 作为评审者为 GRPO 生成奖励信号,以 LoRA 适配器通过 d-RLAIF 训练策略模型。
- 用多个小到中型 LLMs(7-8B)作为策略模型,以及 8B/SOTA 评审(Selene-1-mini、M-Prometheus、Gemini-3-Flash)进行实验。
- 在 TimeTravel 测试集上使用 Gemini-3-Flash 以及标准语言指标(BLEU-4、ROUGE-L)评估后训练模型。
- 与 SFT 和指令微调基线在逻辑、理性、完整-N、min-LRC、叙事性等维度进行对比。
实验结果
研究问题
- RQ1如何将叙事理论落实为 LLM 后训练中的奖励信号以用于 ASG?
- RQ2d-RLAIF 训练的模型是否比 SFT 或指令微调更符合人类叙事惯例?
- RQ3将叙事性奖励信号与非叙事性奖励信号对模型性能的影响?
- RQ4在叙事理论信息驱动的 ASG 中,模型规模、评审质量与训练效率之间的权衡?
主要发现
- d-RLAIF 在 TimeTravel 的改述上通常优于有监督微调和指令微调模型。
- 基于叙事性的奖励(R_N)获得了较强的 min-LRC 分数,在某些标准上接近人类表现。
- SFT 在语言相似性(BLEU-4、ROUGE-L)和 Complete-N 上达到最高,但往往以多样性和叙事性为代价。
- 局部的 LLM 作为评审者能够有效引导奖励信号,性能取决于评审者的严格程度和奖励配置。
- 奖励尺度(3 点制 vs 5 点制)影响学习动力学;更高的粒度未必普遍提升叙事性,暴露了梯度匮乏风险。
- 采用 d-RLAIF 的后训练在数据集较小的情况下收敛速度更快,显示了对主观任务的高效语言学基础后训练潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。