[论文解读] Story Generation from Sequence of Independent Short Descriptions
论文通过三种方法——基于短语的 SMT、基于句法的 SMT,以及带注意力的 Seq2Seq——从独立描述生成连贯故事,并在 VIST 数据集上进行评估。
Existing Natural Language Generation (NLG) systems are weak AI systems and exhibit limited capabilities when language generation tasks demand higher levels of creativity, originality and brevity. Effective solutions or, at least evaluations of modern NLG paradigms for such creative tasks have been elusive, unfortunately. This paper introduces and addresses the task of coherent story generation from independent descriptions, describing a scene or an event. Towards this, we explore along two popular text-generation paradigms -- (1) Statistical Machine Translation (SMT), posing story generation as a translation problem and (2) Deep Learning, posing story generation as a sequence to sequence learning problem. In SMT, we chose two popular methods such as phrase based SMT (PB-SMT) and syntax based SMT (SYNTAX-SMT) to `translate' the incoherent input text into stories. We then implement a deep recurrent neural network (RNN) architecture that encodes sequence of variable length input descriptions to corresponding latent representations and decodes them to produce well formed comprehensive story like summaries. The efficacy of the suggested approaches is demonstrated on a publicly available dataset with the help of popular machine translation and summarization evaluation metrics.
研究动机与目标
- 介绍从独立简短描述生成连贯叙事的挑战。
- 将传统的 SMT 方法(pb-SMT 和 syntax-SMT)与神经 Seq2Seq 模型在故事生成任务上进行比较。
- 在公开数据集(VIST)上展示当前方法的可行性与局限性。
- 突出评估缺口并提出改进创造性文本生成指标的方向。
提出的方法
- 将故事生成形式化为 pb-SMT 和 syntax-SMT 的翻译问题,使用 GIZA++ 对齐并用 MOSES 进行解码。
- 在故事目标上训练一个5-gram 语言模型,使用 Kneser-Ney 平滑并用 MERT 调参。
- 实现带注意力的 Seq2Seq 编码-解码器,使用双向 GRU 编码器将输入描述映射到故事,采用 dropout 和 Adam 优化。
- 试验编码器/解码器维度为 50、128、256 的 Seq2Seq 变体,解码时使用束搜索。
- 使用 BLEU-4、METEOR、TER 以及 ROUGE-L 进行评估;报告对连贯性和语义相关性的定性观察。
实验结果
研究问题
- RQ1独立的简短描述能否通过 SMT 和 Seq2Seq 方法转换为连贯的故事?
- RQ2基于短语的 SMT、基于句法的 SMT,以及带注意力的 Seq2Seq 在标准的 NLG 指标上的故事生成表现如何比较?
- RQ3当前方法在生成故事时捕捉与输入描述的语义相关性方面有哪些局限?
- RQ4哪些数据集和评估指标适合评估来自描述的创造性故事生成?
- RQ5哪些未来方向可以提高机器生成故事的语义连贯性和创造力?
主要发现
| 方法 | BLEU-4 | METEOR | TER | ROUGE-L |
|---|---|---|---|---|
| pb-SMT | 3.50 | 10.30 | 102.95 | 0.179 |
| syntax-SMT | 3.40 | 10.06 | 102.03 | 0.180 |
| Seq2Seq (50) | 1.63 | 0.07 | 89.38 | 0.160 |
| Seq2Seq (128) | 1.84 | 0.07 | 89.35 | 0.163 |
| Seq2Seq (256) | 1.98 | 0.07 | 89.23 | 0.166 |
- PB-SMT 在 BLEU-4、METEOR 和 ROUGE-L 上取得测试方法中的最高分,其次是 syntax-SMT。
- Seq2Seq 模型的基于 n-gram 的分数较低,但能产生更易读、更连贯的故事,TER 较低表示翻译质量的改善。
- 所有方法都难以生成与输入描述在语义上相关的故事,显示需要更复杂的模型和评估指标。
- Seq2Seq 的训练曲线显示收敛,但输出仍受训练数据和建模方法的限制。
- 研究建议探索分层 RNN、在大语料上进行预训练,或在测试时进行超越直接输入输出词映射的新生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。