[论文解读] Controllable Neural Story Generation via Reinforcement Learning.
本文提出了一种基于强化学习的方法,通过从故事语料中提取的奖励塑造,引导微调过的语言模型生成连贯且目标导向的故事情节。通过反向传播中间奖励,该模型在自动化指标和人工评估中均表现出比基线方法更合理的事件推进顺序,从而生成更连贯的故事。
Language-modeling--based approaches to story plot generation attempt to construct a plot by sampling from a language model (LM) to predict the next character, word, or sentence to add to the story. LM techniques lack the ability to receive guidance from the user to achieve a specific goal, resulting in stories that don't have a clear sense of progression and lack coherence. We present a reward-shaping technique that analyzes a story corpus and produces intermediate rewards that are backpropagated into a pre-trained LM in order to guide the model towards a given goal. Automated evaluations show our technique can create a model that generates story plots which consistently achieve a specified goal. Human-subject studies show that the generated stories have more plausible event ordering than baseline plot generation techniques.
研究动机与目标
- 解决使用语言模型进行神经故事生成时存在的连贯性和目标导向性不足的问题。
- 通过在生成过程中引入外部奖励,实现用户引导的故事生成。
- 通过从故事语料中学习中间奖励,改善故事情节的推进过程。
- 通过自动化指标和人工研究评估该方法的有效性。
提出的方法
- 该方法使用预训练语言模型作为故事生成的生成网络。
- 提出了一种奖励塑造技术,通过分析故事语料,基于叙事结构提取中间奖励。
- 利用这些中间奖励通过强化学习训练语言模型,实现在生成过程中奖励的反向传播。
- 奖励函数被设计为鼓励连贯的事件排序和向指定目标的推进。
- 使用策略梯度方法对模型进行微调,其中奖励被反向传播以优化生成策略。
实验结果
研究问题
- RQ1能否通过故事语料中的奖励塑造来提升神经故事生成的连贯性和目标导向性?
- RQ2所提出的方法是否能生成比基线方法更符合逻辑的事件排序故事情节?
- RQ3该模型能否通过强化学习持续生成与指定目标一致的故事?
主要发现
- 所提出的方法能够一致地生成达成指定目标的故事情节,自动化评估结果已证实这一点。
- 人工评估显示,生成的故事在事件排序上显著优于基线技术。
- 由于引入了中间奖励,模型在叙事推进方面表现出更优的连贯性。
- 奖励塑造技术成功引导语言模型实现期望的故事结果,而无需为每篇故事提供显式监督。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。