[论文解读] Learning to Ask: Neural Question Generation for Reading Comprehension
本文给出一个端到端的带注意力的神经序列到序列模型,用于从句子(可选地段落)生成自然、信息丰富的问题,以帮助阅读理解,在 SQuAD 上对比基线达到最新水平。
We study automatic question generation for sentences from text passages in reading comprehension. We introduce an attention-based sequence learning model for the task and investigate the effect of encoding sentence- vs. paragraph-level information. In contrast to all previous work, our model does not rely on hand-crafted rules or a sophisticated NLP pipeline; it is instead trainable end-to-end via sequence-to-sequence learning. Automatic evaluation results show that our system significantly outperforms the state-of-the-art rule-based system. In human evaluations, questions generated by our system are also rated as being more natural (i.e., grammaticality, fluency) and as more difficult to answer (in terms of syntactic and lexical divergence from the original text and reasoning needed to answer).
研究动机与目标
- 自动化问题生成以支持阅读理解和数据集创建。
- 开发一个不依赖手工规则的端到端神经问题生成模型。
- 研究问题生成功能的句子级编码与段落级编码的比较。
- 用自动评估指标和人工判断对基线进行评估。
提出的方法
- 使用带全局注意力机制的注意力型编码器-解码器来建模 P(y|x)。
- 实现两种变体:句子级编码和句子+段落级编码(Y形网络)。
- 用双向 LSTM 对句子进行编码,并为解码计算基于注意力的上下文向量。
- 可选地用另一条双向 LSTM 对一个截断的段落进行编码,并将其表示拼接以初始化解码器。
- 通过最小化带教师强制的负对数似然来训练;解码时使用束搜索,并用注意力对简单 UNK 进行替换。
实验结果
研究问题
- RQ1一个完全数据驱动的神经 QG 模型能否在阅读理解数据上超越基于规则和基于 SMT 的基线?
- RQ2将段落级信息纳入是否比仅句子编码更能提升问题生成质量?
- RQ3在此 QG 设置中,预训练嵌入对生成质量有何影响?
- RQ4在 SQuAD 派生数据上,端到端神经 QG 相对于过度生成再排序基线的表现如何?
主要发现
| 模型 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L |
|---|---|---|---|---|---|---|
| IR BM25 | 5.18 | 0.91 | 0.28 | 0.12 | 4.57 | 9.16 |
| IR Edit Distance | 18.28 | 5.48 | 2.26 | 1.06 | 7.73 | 20.77 |
| MOSES+ | 15.61 | 3.64 | 1.00 | 0.30 | 10.47 | 17.82 |
| DirectIn | 31.71 | 21.18 | 15.11 | 11.20 | 14.95 | 22.47 |
| H&S | 38.50 | 22.80 | 15.52 | 11.18 | 15.95 | 30.98 |
| Vanilla seq2seq | 31.34 | 13.79 | 7.36 | 4.26 | 9.88 | 29.75 |
| Our model (no pre-trained) | 41.00 | 23.78 | 15.71 | 10.80 | 15.17 | 37.95 |
| Our model (w/ pre-trained) | 43.09 | 25.96 | 17.50 | 12.28 | 16.62 | 39.75 |
| + paragraph | 42.54 | 25.33 | 16.98 | 11.86 | 16.28 | 39.37 |
- 仅句子模型(带预训练嵌入)在所有自动指标上表现最好。
- 段落信息通常有助于段落类别的问题,但可能引入噪声,有时降低总体指标。
- 所提出的神经模型在 BLEU、METEOR 和 ROUGE-L 指标上超越 IR、MOSES+ 和 H&S 基线。
- 人工评估者认为神经模型的问题更自然且更难以回答;总体排名偏向神经模型。
- 添加预训练嵌入可提升性能,而编码段落信息对不同问题类型的效果则呈现混合结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。