[论文解读] Neural Models for Key Phrase Detection and Question Generation
本文提出了一种两阶段神经框架,用于从文档自动生成问题。首先,利用带有指针网络的序列到序列模型从问答语料库中提取类人的关键词短语;然后,基于注意力机制和指针-Softmax,将这些短语作为条件,生成序列到序列的问题。该系统在关键词提取方面显著优于基于规则和实体标注的基线模型,并能生成流畅、可回答的问题,其质量往往与人类生成的问题难以区分。
We propose a two-stage neural model to tackle question generation from documents. First, our model estimates the probability that word sequences in a document are ones that a human would pick when selecting candidate answers by training a neural key-phrase extractor on the answers in a question-answering corpus. Predicted key phrases then act as target answers and condition a sequence-to-sequence question-generation model with a copy mechanism. Empirically, our key-phrase extraction model significantly outperforms an entity-tagging baseline and existing rule-based approaches. We further demonstrate that our question generation system formulates fluent, answerable questions from key phrases. This two-stage system could be used to augment or generate reading comprehension datasets, which may be leveraged to improve machine reading systems or in educational settings.
研究动机与目标
- 通过自动化问答对生成,解决人工标注阅读理解数据集成本高、可扩展性差的问题。
- 利用众包问答数据上的神经序列到序列学习,建模人类选择关键词短语的分布。
- 使用基于注意力机制的序列到序列模型结合复制机制,基于提取的关键词短语生成流畅、可回答的问题。
- 在流畅性、正确性和人类可区分性方面,与人工生成的问答对对比评估生成问题的质量。
- 证明该框架能够生成高质量、可泛化的问答对,适用于教育和模型训练应用。
提出的方法
- 使用序列到序列模型训练神经关键词提取器,通过预测文档中关键词短语的起始和结束边界,基于问答数据集中人类选择的可能性进行条件化。
- 采用指针-Softmax机制,使模型能够直接从输入文档复制词语,从而提高对罕见或未登录词的准确性。
- 使用编码器-解码器架构结合Bahdanau注意力机制,将提取的关键词短语作为条件,用于问题生成模型,以对齐文档相关部分与问题中的词元。
- 在大规模问答数据集(SQuAD、NewsQA、TriviaQA)上端到端联合训练两个组件,以最大化真实答案和问题的似然概率。
- 利用众包标注评估生成问题的流畅性与正确性,并与人工生成的问答对进行人类偏好比较。
- 通过内部搜索工具将模型应用于真实文档,以测试其在标准阅读理解基准之外的泛化能力。
实验结果
研究问题
- RQ1带有指针网络的神经序列到序列模型能否有效学习从问答语料库中提取反映人类选择模式的关键词短语?
- RQ2所提出的关键词提取模型在精确率和召回率方面与基于规则和实体标注的基线模型相比表现如何?
- RQ3生成的问题在句法流畅性和与源文档及关键词短语的语义相关性方面达到何种程度?
- RQ4在人类评估中,模型生成的问答对与人工生成的问答对在多大程度上可被区分?
- RQ5该两阶段框架能否生成适用于增强阅读理解数据集或教育应用的问答对?
主要发现
- 所提出的关键词提取模型在识别人类选择的答案候选方面,显著优于实体标注基线和基于规则的方法。
- 59.8%的生成问题被众包工作者评为流畅,其中35.6%正确匹配其对应答案。
- 在人类偏好研究中,53.5%的标注者更倾向于选择本模型生成的问答对,而非强基线模型(H&S)的结果,表明其质量具有强大竞争力。
- 标注者在77.8%的情况下正确识别出模型生成的问答对为合成数据,表明其高度逼真,与人工输出难以区分。
- 在一项评估中,模型在区分自身输出与人工生成对时达到66.7%的准确率;在与H&S的对比中,准确率为81.8%,表明其输出具有极强的人类相似性。
- 该模型在真实文档上表现出良好的泛化能力,即使在非阅读理解数据集上通过内部搜索工具测试,也能生成流畅且语义相关的问答对。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。