[论文解读] Narrative Interpolation for Generating and Understanding Stories
本文提出了一种叙事插值方法,通过条件化于起始句和目标结尾句,利用微调后的 GPT-2 模型与基于 RoBERTa 的连贯性重排序模块,生成连贯且忠实的故事。人工评估显示,该方法在连贯性、忠实度和偏好度方面优于先前的故事情节引导方法,同时用户所需的手动输入更少。
We propose a method for controlled narrative/story generation where we are able to guide the model to produce coherent narratives with user-specified target endings by interpolation: for example, we are told that Jim went hiking and at the end Jim needed to be rescued, and we want the model to incrementally generate steps along the way. The core of our method is an interpolation model based on GPT-2 which conditions on a previous sentence and a next sentence in a narrative and fills in the gap. Additionally, a reranker helps control for coherence of the generated text. With human evaluation, we show that ending-guided generation results in narratives which are coherent, faithful to the given ending guide, and require less manual effort on the part of the human guide writer than past approaches.
研究动机与目标
- 解决在最小化用户输入的前提下生成连贯、逻辑一致的故事,并确保忠实于用户指定的故事结尾的挑战。
- 减少对复杂、手工构建的故事情节的依赖,这些情节对关键词选择敏感且需要较高的用户投入。
- 通过引入基于 RoBERTa 的连贯性重排序模块,过滤掉不连贯或矛盾的生成内容,从而提升故事质量。
- 评估单个结尾句子是否可作为比多关键词故事情节更稳健、更直观的控制信号。
提出的方法
- 该模型使用基于 GPT-2 的生成器,同时以前提句和目标结尾句为条件,插值生成中间事件,上下文结构为:[结尾] + [生成的中间部分] + [起始]。
- 模型被训练为生成一个句子,以连接给定的起始句与结尾句,生成过程为自回归且迭代式。
- 应用基于 RoBERTa 的连贯性重排序模块,对生成的故事候选进行排序并选择最高质量的输出,排除不连贯或矛盾的内容。
- 采用零样本设置进行评估,模型仅根据 (起始, 结尾) 对生成故事,无需完整故事情节。
- 与经过重构的 Plan-and-Write (paw) 模型进行对比,后者以人工编写的故事情节作为输入,确保比较的公平性。
- 模型在 ROCStories 数据集上进行微调,训练样本对通过 RAKE 算法从后续句子中提取关键词生成。
实验结果
研究问题
- RQ1与多关键词故事情节相比,单个结尾句子是否能作为更有效且稳健的控制信号,用于生成连贯且忠实的故事?
- RQ2同时以起始句和结尾句为条件,是否能提升故事生成中的叙事连贯性与逻辑一致性?
- RQ3基于 RoBERTa 的连贯性重排序模块在多大程度上通过过滤不连贯或矛盾的输出,提升了生成故事的质量?
- RQ4在人类评分的连贯性、忠实度和整体偏好度方面,结尾引导生成方法与故事情节引导生成方法相比表现如何?
主要发现
- 在人工评估中,结尾引导模型(interpol)显著优于无重排序基线(仅 GPT-2),61.1% 的故事被评为更连贯,58.9% 更受偏好。
- 连贯性重排序模块降低了不连贯故事的比例,83.4% 的 interpol 生成故事被评为主旨忠实于结尾,而 paw 基线仅为 33.3%。
- 在整体偏好度方面,人类在 50.7% 的情况下更偏好 interpol 生成的故事,其中 44.4% 的故事被认为更连贯,74.4% 更忠实于引导内容。
- 当以结尾为条件时,模型在完整故事生成中的词件困惑度(wordpiece perplexity)降低至 7.53,证实了结尾引导信息的丰富性。
- 与基于故事情节的方法相比,该方法显著减少了用户的手动投入,仅需提供一个结尾句子,而非一系列关键词。
- 该方法对低具体性输入具有鲁棒性,避免了在关键词模糊或选择不佳时,故事情节引导模型常见的失败情况。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。