[论文解读] A Joint Model for Question Answering and Question Generation
论文提出一个联合的序列到序列模型,能够在从文档提问和回答问题两个任务上共同学习,提升在 SQuAD 上的问答性能并实现抽象式答案。
We propose a generative machine comprehension model that learns jointly to ask and answer questions based on documents. The proposed model uses a sequence-to-sequence framework that encodes the document and generates a question (answer) given an answer (question). Significant improvement in model performance is observed empirically on the SQuAD corpus, confirming our hypothesis that the model benefits from jointly learning to perform both tasks. We believe the joint model's novelty offers a new perspective on machine comprehension beyond architectural engineering, and serves as a first step towards autonomous information seeking.
研究动机与目标
- 激励并分析一个多任务设置,在该设置中问答和问题生成相互影响。
- 开发一个统一的基于注意力的 seq2seq 模型,可以相互条件化地生成问题和答案。
- 评估联训是否提高在 SQuAD 上的问答准确性和问题生成质量。
提出的方法
- 使用带有指针-softmax 解码器的基于注意力的序列到序列模型,在从文档复制和从词汇表生成之间切换。
- 用 BiLSTMs 对文档和条件序列(用于回答生成的问题;用于问题生成的答案)进行编码,并提取式条件向量。
- 通过交替使用同一模型的 QA 与 QG 数据来实现联合训练。
- 将答案和问题生成目标表示为序列,在训练期间应用教师强制。
- 使用 QA 的 F1 和 Exact Match,问题的 BLEU-4,以及诸如困惑度和生成问题的 QA F1 之类的额外指标进行评估。
实验结果
研究问题
- RQ1联训 QA 和问题生成是否会提升在 SQuAD 上的问答性能?
- RQ2模型是否能够生成高质量的问题,反过来,生成仍然支持问答准确性的抽象式答案?
- RQ3共享表示在提取与抽象在 QA 与 QG 任务中的影响如何?
主要发现
- 联合训练在 SQuAD 上使问答性能相对于仅QA模型提升约10个百分点的 F1 和 EM。
- 该联合模型能够在部分情况下生成抽象式答案,并保持有竞争力的问题生成质量。
- 在单任务模型表现最弱的答案类型上,问答性能提升尤为明显。
- 该模型的问题生成 BLEU-4 和答案生成 BLEU-4 指标显示具有竞争力的结果,但自动指标未能充分捕捉人类判断。
- 该联合模型的问答性能落后于专用的 mLSTM 问答模型,但提供了生成问题的独特能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。