Skip to main content
QUICK REVIEW

[论文解读] Transformer-based End-to-End Question Generation.

Luis Enrico Lopez, Diane Kathryn Cruz|arXiv (Cornell University)|May 3, 2020
Topic Modeling参考文献 14被引用 25
一句话总结

本文提出了一种基于单个Transformer模型的简单端到端问题生成方法,其性能优于复杂的RNN-based Seq2Seq模型,且无需答案元数据或额外机制。通过微调单个预训练语言模型,实现了最先进(SOTA)的性能表现,METEOR和ROUGE_L得分分别提升了8.62和14.27点。

ABSTRACT

Question Generation (QG) is an important task in Natural Language Processing (NLP) that involves generating questions automatically when given a context paragraph. While many techniques exist for the task of QG, they employ complex model architectures, extensive features, and additional mechanisms to boost model performance. In this work, we show that transformer-based finetuning techniques can be used to create robust question generation systems using only a single pretrained language model, without the use of additional mechanisms, answer metadata, and extensive features. Our best model outperforms previous more complex RNN-based Seq2Seq models, with an 8.62 and a 14.27 increase in METEOR and ROUGE_L scores, respectively. We show that it also performs on par with Seq2Seq models that employ answer-awareness and other special mechanisms, despite being only a single-model system. We analyze how various factors affect the model's performance, such as input data formatting, the length of the context paragraphs, and the use of answer-awareness. In addition, we also look into the modes of failure that the model experiences and identify the reasons why it fails.

研究动机与目标

  • 开发一种仅使用单个预训练Transformer模型的稳健、端到端问题生成系统。
  • 消除对复杂架构、答案元数据或大量特征工程的需求。
  • 评估是否一个最小化、统一的模型能够达到或超越更复杂、专门化的Seq2Seq模型的性能。
  • 分析输入格式、上下文长度和答案感知性对模型性能的影响。
  • 识别并诊断生成问题中的失败模式。

提出的方法

  • 在问题生成任务上微调单个预训练Transformer模型(如BERT或类似模型),使用标准的编码器-解码器注意力机制。
  • 仅使用上下文段落和对应答案作为输入,不显式标记答案token或引入额外特征。
  • 采用标准的序列到序列训练方法,使用交叉熵损失和自回归解码。
  • 应用输入格式化技术,如基于模板的输入构建,以引导模型。
  • 使用标准指标(METEOR和ROUGE-L)评估性能。
  • 进行消融研究,以评估上下文长度和输入格式化对生成质量的影响。

实验结果

研究问题

  • RQ1单个微调的Transformer模型是否能在不使用答案感知性或辅助机制的情况下,实现具有竞争力的问题生成性能?
  • RQ2输入格式化和上下文长度如何影响生成问题的质量?
  • RQ3生成问题中的主要失败模式是什么,其成因是什么?
  • RQ4单模型Transformer在性能上与更复杂的RNN-based和答案感知型Seq2Seq模型相比如何?
  • RQ5在最小化的Transformer-based设置中,答案感知性在多大程度上提升了性能?

主要发现

  • 所提出的单模型Transformer方法在METEOR上比先前的RNN-based Seq2Seq模型高出8.62分,在ROUGE_L上高出14.27分。
  • 尽管未使用答案感知性或额外机制,该模型的性能与引入这些特性的更复杂模型相当。
  • 输入格式化显著影响模型性能,结构化模板能有效提升生成质量。
  • 较长的上下文段落会负面影响生成质量,尤其在问题相关性和流畅性方面。
  • 常见失败模式包括问题重复、错误的问题类型生成,以及虚构不存在的答案。
  • 即使答案存在于上下文中,该模型在需要共指消解或复杂推理的问题上仍表现最差。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。