[论文解读] Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation
本文提出一个基于强化学习的 Graph2Seq 模型,配备双向图神经编码器和深度对齐网络,以从文本生成自然问题,在 SQuAD 上取得了最先进的结果。
Natural question generation (QG) aims to generate questions from a passage and an answer. Previous works on QG either (i) ignore the rich structure information hidden in text, (ii) solely rely on cross-entropy loss that leads to issues like exposure bias and inconsistency between train/test measurement, or (iii) fail to fully exploit the answer information. To address these limitations, in this paper, we propose a reinforcement learning (RL) based graph-to-sequence (Graph2Seq) model for QG. Our model consists of a Graph2Seq generator with a novel Bidirectional Gated Graph Neural Network based encoder to embed the passage, and a hybrid evaluator with a mixed objective combining both cross-entropy and RL losses to ensure the generation of syntactically and semantically valid text. We also introduce an effective Deep Alignment Network for incorporating the answer information into the passage at both the word and contextual levels. Our model is end-to-end trainable and achieves new state-of-the-art scores, outperforming existing methods by a significant margin on the standard SQuAD benchmark.
研究动机与目标
- 通过将段落建模为图结构来利用丰富的文本结构,从而提升问题生成质量。
- 有效整合答案信息,在多个粒度层面引导问题生成。
- 通过将交叉熵与强化学习损失的混合目标来缓解训练-推断不匹配。
- 通过多样化奖励信号鼓励生成问题的句法和语义有效性。
- 在标准基准上进行评估,以确立最先进的性能并分析组件贡献。
提出的方法
- 提出一个 Graph2Seq 生成器,配备 Bidirectional Gated Graph Neural Network (BiGGNN) 编码器。
- 使用静态(基于语法)与动态(语义感知)方法构建段落图。
- 引入 Deep Alignment Network (DAN) 在词语和上下文层面融合段落与答案信息。
- 使用 SCST 的交叉熵与强化学习混合目标来训练混合评估器。
- 使用 BLEU-4 与 Word Mover’s Distance (WMD) 的奖励来优化语义和句法质量。
- 使用束搜索评估并在 SQuAD 数据集上与多种基线进行比较。
实验结果
研究问题
- RQ1相较于序列编码器,文本的图结构表示如何改善自然问题生成?
- RQ2通过深度对齐机制整合答案信息是否能提升问题的相关性和质量?
- RQ3静态语法基础与动态语义感知的图构建对 QG 性能的影响是什么?
- RQ4混合 CE+RL 目标是否能优于纯 CE 训练的 QG?
- RQ5在自动和人工评估中,所提模型与 SQuAD 上的最先进基线相比如何?
主要发现
| BLEU-4 | METEOR | ROUGE-L | Q-BLEU1 | ||
|---|---|---|---|---|---|
| Split-1 | Transformer | 2.56 | 8.98 | 26.01 | 16.70 |
| Split-1 | SeqCopyNet | – | – | – | – |
| Split-1 | NQG++ | – | – | – | – |
| Split-1 | MPQG+R* | 14.39 | 18.99 | 42.46 | 52.00 |
| Split-1 | AFPQA | – | – | – | – |
| Split-1 | s2sa-at-mp-gsa | 15.32 | 19.29 | 43.91 | – |
| Split-1 | ASs2s | 16.20 | 19.92 | 43.96 | – |
| Split-1 | CGC-QG | 17.55 | 21.24 | 44.53 | – |
| Split-1 | G2S dyn +BERT+RL | 17.55 | 21.42 | 45.59 | 55.40 |
| Split-1 | G2S sta +BERT+RL | 17.94 | 21.76 | 46.02 | 55.60 |
- 提出的 G2S sta +BERT+RL 与 G2S dyn +BERT+RL 在 SQuAD 测试集上达到新的最先进分数。
- 静态图构建在多项指标上通常优于动态图构建。
- 通过 DAN 融合答案信息在 BLEU-4(及其他指标)上显著超过对照模型。
- 使用 REINFORCE 微调在各设置下进一步提升性能,尤以搭配 BERT 时为显著。
- 人类评估显示在句法和语义质量方面与真值和强基线相比具有竞争力。
- 消融实验表明带前向/后向信息传递的 BiGGNN 与 DAN 对提升至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。