Skip to main content
QUICK REVIEW

[论文解读] Hierarchical Neural Network Generative Models for Movie Dialogues.

Iulian Vlad Serban, Alessandro Sordoni|arXiv (Cornell University)|Jul 17, 2015
Topic Modeling参考文献 41被引用 155
一句话总结

本文通过扩展分层循环编码器-解码器架构,提出了一种用于电影对话的分层神经网络生成模型,在与最先进神经模型和n-gram模型的对比中表现出具有竞争力的性能。主要改进来自利用大规模问答语料进行自举训练,以及使用预训练词嵌入,显著提升了生成质量。

ABSTRACT

We consider the task of generative dialogue modeling for movie scripts. To this end, we extend the recently proposed hierarchical recurrent encoder decoder neural network and demonstrate that this model is competitive with state-of-the-art neural language models and backoff n-gram models. We show that its performance can be improved considerably by bootstrapping the learning from a larger questionanswer pair corpus and from pretrained word embeddings.

研究动机与目标

  • 开发一种专用于电影对话生成的神经生成模型,以应对生成连贯、上下文相关对话的挑战。
  • 通过利用分层序列建模捕捉对话轮次中的长距离依赖关系,提升模型性能。
  • 研究在大规模问答语料上进行预训练以及使用预训练词嵌入对对话生成质量的影响。
  • 将所提模型的性能与最先进神经语言模型及n-gram回退模型进行对比。

提出的方法

  • 该模型采用分层循环编码器-解码器架构,其中话语在话语层级进行编码,对话在对话层级进行编码。
  • 使用堆叠的长短期记忆(LSTM)网络来建模话语之间及话语内部的分层依赖关系。
  • 通过电影对话数据集进行微调,训练过程采用序列到序列学习和教师强制策略进行优化。
  • 使用预训练词嵌入(如Word2Vec或GloVe)初始化输入嵌入,以提升泛化能力。
  • 在微调之前,通过在大规模问答语料上进行预训练,进一步对模型进行自举。
  • 解码过程采用自回归方式,使用束搜索(beam search)生成多样且流畅的回复。

实验结果

研究问题

  • RQ1分层循环编码器-解码器模型能否有效生成连贯且上下文相关的电影对话?
  • RQ2在大规模问答语料上进行预训练在多大程度上提升了电影剧本上的对话生成性能?
  • RQ3预训练词嵌入在多大程度上增强了模型生成流畅且有意义话语的能力?
  • RQ4与最先进神经语言模型及n-gram回退模型相比,所提模型的性能表现如何?

主要发现

  • 分层神经网络模型在电影对话生成任务中,性能与最先进神经语言模型相当。
  • 在大规模问答语料上进行预训练显著提升了对话生成质量,尤其在连贯性和相关性方面。
  • 使用预训练词嵌入进一步提升了模型性能,有助于更优的对话话语语义表征。
  • 该模型在生成对话的流畅性和多样性方面均优于传统的n-gram回退模型。
  • 分层建模、在QA数据上进行预训练以及使用预训练嵌入的结合,形成了一种针对电影剧本的鲁棒生成模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。